首页 > 影像 > 影像首页 > 影像资讯> 正文

谷歌 Genie 3 AI打造 15 个令人惊叹的交互式世界,重新定义虚拟体验

Jj 编辑:陈俊均 发布于:2025-08-11 18:02 PConline原创

近日,谷歌正式发布了全新通用人工智能驱动的世界模型 ——Genie 3。这款 AI 模型能够生成多样化、照片级逼真的交互式环境,用户只需输入文本提示,即可实时探索这些动态世界,其分辨率可达 720p,帧率为 24 帧 / 秒。尽管单从参数看似乎不够惊艳,但 Genie 3 作为谷歌首款支持复杂实时交互的世界模型,标志着 AI 生成虚拟环境技术的重大突破。

对比前代与同类:交互能力实现跨越式提升。

相较于前代产品 Genie 2,Genie 3 的进步堪称巨大。Genie 2 的分辨率最高仅为 360p,用户在 AI 生成的世界中只能进行有限的移动,可执行的动作极少,且交互时长仅能维持 10 至 20 秒。而 Genie 3 不仅将分辨率提升至 720p,更允许用户在虚拟世界中导航长达数分钟,甚至能与场景中的物体进行交互。

若与其他同类模型对比,差异同样显著。

GameNGen:专注于特定游戏领域,分辨率仅 320p,交互控制局限于游戏场景;

Veo:虽支持 720p 至 4K 分辨率,但属于通用视频生成模型,交互仅局限于视频输出控制,且生成片段短于 10 秒;

Genie 3:覆盖通用领域,支持 720p 分辨率,可通过提示控制世界事件,实现实时导航,交互时长可达数分钟。

值得一提的是,Genie 1 的发布距今不足一年半,谷歌 DeepMind 团队在短时间内取得的技术进展令人瞩目。

实现实时交互与世界一致性双重跨越的技术突破

Genie 3 实现了多项关键技术突破。它能模拟真实世界的物理规律,包括水流、光照效果,还可逼真模拟动植物行为,生成全模型角色,甚至能重建现实中的地点乃至历史时期的场景。

谷歌解释,要在 Genie 3 中实现高度可控性和实时交互,需攻克巨大技术难题:在每帧的自回归生成过程中,模型必须考虑随时间增长的历史轨迹。例如,当用户在一分钟后重返某个地点时,模型需调用一分钟前的相关信息。为实现实时交互,系统必须每秒多次响应新的用户输入。

此外,让基础世界模型在长时间内保持一致性同样极具挑战 —— 任何微小的误差都可能迅速扩大。Genie 3 具备约一分钟的 “视觉记忆”,当用户离开某物体后再返回时,该物体能保持在原位置,这一成就在业内尚无先例。

现存局限与未来展望

尽管表现亮眼,Genie 3 仍存在一定局限:动作空间有限,多智能体在生成世界中的交互存在挑战,文本渲染(这是生成式 AI 的常见问题)不够精准,且对真实地点的地理建模偶尔会出现偏差。不过,其展现的基础技术已足够令人惊叹。

目前,Genie 3 仅向选定的学者和研究人员开放使用。谷歌表示,正积极研究如何将其推广给更多测试者。

从生成静态画面到构建可交互的动态世界,Genie 3 的出现或许预示着 AI 驱动的虚拟体验时代正加速到来。

谷歌    Genie 3    AI
Jj

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部