|
近日,谷歌正式发布了全新通用人工智能驱动的世界模型 ——Genie 3。这款 AI 模型能够生成多样化、照片级逼真的交互式环境,用户只需输入文本提示,即可实时探索这些动态世界,其分辨率可达 720p,帧率为 24 帧 / 秒。尽管单从参数看似乎不够惊艳,但 Genie 3 作为谷歌首款支持复杂实时交互的世界模型,标志着 AI 生成虚拟环境技术的重大突破。 对比前代与同类:交互能力实现跨越式提升。
相较于前代产品 Genie 2,Genie 3 的进步堪称巨大。Genie 2 的分辨率最高仅为 360p,用户在 AI 生成的世界中只能进行有限的移动,可执行的动作极少,且交互时长仅能维持 10 至 20 秒。而 Genie 3 不仅将分辨率提升至 720p,更允许用户在虚拟世界中导航长达数分钟,甚至能与场景中的物体进行交互。
若与其他同类模型对比,差异同样显著。 GameNGen:专注于特定游戏领域,分辨率仅 320p,交互控制局限于游戏场景; Veo:虽支持 720p 至 4K 分辨率,但属于通用视频生成模型,交互仅局限于视频输出控制,且生成片段短于 10 秒; Genie 3:覆盖通用领域,支持 720p 分辨率,可通过提示控制世界事件,实现实时导航,交互时长可达数分钟。
值得一提的是,Genie 1 的发布距今不足一年半,谷歌 DeepMind 团队在短时间内取得的技术进展令人瞩目。 实现实时交互与世界一致性双重跨越的技术突破 Genie 3 实现了多项关键技术突破。它能模拟真实世界的物理规律,包括水流、光照效果,还可逼真模拟动植物行为,生成全模型角色,甚至能重建现实中的地点乃至历史时期的场景。
谷歌解释,要在 Genie 3 中实现高度可控性和实时交互,需攻克巨大技术难题:在每帧的自回归生成过程中,模型必须考虑随时间增长的历史轨迹。例如,当用户在一分钟后重返某个地点时,模型需调用一分钟前的相关信息。为实现实时交互,系统必须每秒多次响应新的用户输入。
此外,让基础世界模型在长时间内保持一致性同样极具挑战 —— 任何微小的误差都可能迅速扩大。Genie 3 具备约一分钟的 “视觉记忆”,当用户离开某物体后再返回时,该物体能保持在原位置,这一成就在业内尚无先例。 现存局限与未来展望 尽管表现亮眼,Genie 3 仍存在一定局限:动作空间有限,多智能体在生成世界中的交互存在挑战,文本渲染(这是生成式 AI 的常见问题)不够精准,且对真实地点的地理建模偶尔会出现偏差。不过,其展现的基础技术已足够令人惊叹。
目前,Genie 3 仅向选定的学者和研究人员开放使用。谷歌表示,正积极研究如何将其推广给更多测试者。
从生成静态画面到构建可交互的动态世界,Genie 3 的出现或许预示着 AI 驱动的虚拟体验时代正加速到来。
|
影像热点
影像视频
IT百科
影像热词
网友评论
聚超值•精选


