News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

人工智能可以创造世界吗? Google Deepmind的精灵在

摘要不再是花和世界,而是“谈话和世界”。如果生成AI的成功教会了我们近年来与算法进行交谈,从而使我们能够帮助我们撰写文章,绘制图纸甚至剪裁视频,那么今天DeepMind抛出的Genie 3将Generative AI带来了另一个尺寸。 8月5日,DeepMind宣布了Genie 3,这是一种名为“通用世界模型”的新模型。打开Genie 3,然后立即进入“步行到风暴中的中世纪村庄”。在几秒钟内,Genie 3可以提出一个3D场景,可以实时探索和与之互动。在潮湿的村庄,闪电射线反射岩石路,您可以控制自己的观点并在村庄自由行走。当您靠近小屋并打开门时,您会在火的灯光阴影中看到鼓声爆发到空中。更令人惊讶的是,当您离开小屋并返回时,大火仍在那里,墙上的涂鸦没有改变。目前,您进来了“ AF“雨,天空很晴朗,一个骑士从屋子里出来。 2024。尽管当时的模型可以带来一个简单的3D环境,但是当景点稍微变化时,详细信息将是压倒性的。屏幕,Genie 3也可以维持一些精简的模拟ES代替卡通片段超过十秒钟。更重要的是,Genie 3不依赖于诸如游戏引擎之类的硬编码物理学,而是通过模型预测来保持场景和物理一致性的逻辑。简而言之,场景中的叶子自然会改变而不是随机飞行,角色的阴影与位置一起移动,并且事情还将提供符合碰撞的物理定律的反馈。 以前,诸如Sora或早期Genie系列之类的文本对视频模型都难以解决“世界一致性”问题。 Genie 3引入了一种新的内存机制,使每个帧都可以参考上一个帧的状态,并继续维护整个环境的布局。这意味着,当您回头看时,您行走的道路不会在稀薄的空气中消失,并且树木,岩石和建筑物保持稳定,好像它们确实有一个连续的空间。换句话说,模型学习埃德(Ed)“记住”他画了什么。因此,您不再看到Biglatumalon,但是看到一个需要几分钟的世界。 Genie 3记住生成的对象|图像来源:Genie 3DeepMind在博客上,这种类型的世界模型是一般智慧的基础,因为真正的智能不仅需要理解世界,而且还需要在世界上做出决策和行动,而所有这些都只能在稳定且逻辑上的一致环境中发生。这就是为什么DeepMind称其为“世界模型”,而不是简单的“视频生成器”。根据物理定律开发场景|图像来源:Genie 3传统上生成的视频模型(例如Sora)可以将文本描述转换为30秒的视频,但它们基本上是“封闭的剪辑”。您不能在剪辑中改变世界,不要一个人与之接触。 Genie 3采取了巨大的接触步骤。它不仅可以产生一个连续的连续世界,而且还可以在哀悼期间动态调整场景Ingad,确保逻辑不会掉落。这是世界上Genie 3事件的事件,仅被理解为“文本是命令,世界实时做出反应”。例如,当您键入“摩托艇将出现在水中”时,Genie 3不会改变全新照片的寿命,而是摩托艇的空降,并在河上滑动,在两侧和后方洗净逼真的水。这种即时可塑性意味着用户不仅是听众,而且是导演。相同的情况,无尽的可能性|图像来源:Genie 3根据DeepMind,Genie 3使用训练期间游戏和视频引擎活动生成的大量数据集,以使模型具有“原因和持久性”。更简单,精灵3学会了两件事:Mundor将继续下去,行动会带来后果。另一个细节是Genie 3支持观点的自由运动,并且可能已经改变了 - 从各种视图中恢复内容。听起来很容易,但是我很难开发模型,这要求模型具有强大的3D推理功能。这就是为什么DeepMind在他的博客中强调的,Genie 3的目的不仅是视频,而且是“基于世界的互动一代”的原因。因此,Genie 3不是“出生图片”或“出生视频”,而是产生探索和编辑的虚拟现实,从而创造出无尽的应用程序情况。 02放弃创意产业。只需查看官方的演示示威,您就可以想象Genie 3可以适用的许多情况,尤其是在创意行业中。从原始文本界面(最高2D)到今天的3D和VR,视频游戏一直是人类对虚拟空间探索的先驱。在Genie 3的演示中,这种趋势被推到了一个全新的水平:立即在一个句子中生成了一个探索的,互动的3D场景,这对游戏开发行业意味着什么?在传统的发展过程中,3DIC BU中的场景结构Ilding是与游戏制作的最昂贵和时间的链接之一。特别是对于独立开发人员而言,这通常是他们需要妥协的原因。许多人以第二好的生活生活,并选择2D像素风格,彩绘手,低多形等,以降低开发成本。但是Genie 3完全打破了该极限。过去,花几个星期甚至花bouquetn进行建模,地图和模糊。现在,只需写一些句子即可创建一个动态的新闻和交互式场景。这是非常“面包店的模拟器”游戏风格和视觉感?照片来源:Genie 3大型工作室仍然可以使用不切实际的引擎或自开发的引擎来形成最终的AAA世界,但是对于资源有限的开发人员来说,Genie 3仅填充“间隙成本”:它不能取代专业机器,但大大降低了现场设计的门槛。一个拥有创意但不习惯的团队的小型团队可以使用文字将整个开放世界地图汇总在一起。两者都是truE在电影和电视行业中。导演和艺术可以在备案之前实时审查场景风格,调整灯光和阴影,Magnagndag角色,甚至允许演员直接进入虚拟空间,以实现“热情的故事板”。教育行业具有更大的想象空间,书中描述的历史古迹和地理现象可以提出互动的互动和探索场景。想象一下,我们可以将Dulin的门“传递”到“指环王”和“ Enter” Raphael绘制的雅典学院。也许当每个人都有能力“构建虚拟空间”时,扎克伯格认为也可以实现的元评估。更大的深态野心仍在实践中,物理代理人。 03ai的“认知领域” iTive Field Field for Agents,允许代理商了解虚拟世界中的原因,空间理解和行动计划,而不是TRIal和直接在现实世界中错误。例如,如果您正在练习存储机器人,则先前的技能是开发昂贵的物理学,或依靠发动机的发动机仿真的传统模拟。约会很昂贵,而后者并没有什么不同。这就是DeepMind所说的:Genie 3有潜力将AI代理商推向极限,迫使代理商从自己的经历中学习,就像人们在现实世界中学习一样。但是Genie 3不是强大的,它仍然具有明显的技术限制。例如,场景的当前分辨率仅为720p,帧速率为24fps,尽管对于AI生成并不容易,但它仍然远离游戏屏幕的4K高架速率;其次,Genie 3产生的场景的耐用性仍然有限。尽管官方声明可能需要几分钟,但释放的示范在1分钟内得到控制。场景中的文字是ST不好,您很难在其形成的街道标志上看到清晰的字体,而且身体一致性并不完美。在诸如大型生物和模拟雪崩之类的详细测试中,仍然表达“ AI异常”的缺陷。奇怪的鹿群|照片来源:Genie 3开放度也未知。 DeepMind说,Genie 3目前仅用于研究与合作项目,尚未向公众开放API,而是让Imagen或Gemini等在线体验门户网站。但是,回到更大的情况下,Genie 3不是一个孤立的创造,而是在移动AI技术方向上的具有里程碑意义的扭曲。从Li Feifei创建的世界实验室,NVIDIA推出的Cosmos世界基本模型到DeepMind发布的Genie 3,它反映了AI的智能技术的开发清晰的途径:从2D到3D到3D,再到争议的广告广告,最终场景是物理上一致的,与时间相关的,与时间相关的,与时间相关的,接触的,接触的和事件。 CHATGPT使我们成为一个操作系统,Sora让我们看到该视频可以是一个创意界面,而Genie 3逐步进行,变成了“操作”空间中的文字。最终,无论是游戏,电影和电视,教育还是科学研究,虚拟世界的发展都将是即时的表达:文字,描述段落和单词世界。
Tel
Mail
Map
Share
Contact