最近,一款名为 Oasis 的开放世界游戏火遍全网。
在国内外,关于 Oasis 的视频都引发了广泛的关注。
从表面看来,游戏画面完全是《我的世界》。
不过令人震惊的是,这款游戏不包含任何游戏引擎,也不依赖编程逻辑,所有游戏画面,只由AI大模型实时生成。
想象一下,一个完全由AI创造的开放世界,只需键盘输入,AI就能直接生成一整个虚拟宇宙!
Oasis的团队将重点放在提升生成式AI的实时性和互动性上。通过将模型训练在数百万小时的游戏视频数据上,Oasis学习了基础的游戏逻辑、物体行为、物理法则和交互模式。
这样,模型不仅能理解玩家的输入,还可以自主构建游戏规则、管理物品、计算光照物理等,这些都是传统游戏引擎无法脱离代码逻辑实现的。
那么 Oasis 是怎么实现的?
Oasis的核心技术设计基于 Transformer 架构,采用了创新的模型分层设计和推理机制。这种设计不仅要求生成视觉内容,还要实时反应游戏物理、交互规则等复杂的动态变化。要实现这一点,Oasis将生成式模型分为两个主要模块:
- 空间自动编码器:Oasis 中的空间自动编码器基于Vision Transformer (ViT) 架构,负责从玩家的视角输入中提取空间特征,理解三维场景的结构、光照效果和物体布局。编码器会对场景进行编码,使模型能够理解并生成符合物理规律的场景。
- 潜在扩散骨干:核心的潜在扩散模型基于DiT(Diffusion Transformer),负责将空间特征编码转化为实际的游戏画面。Latent Diffusion Backbone 通过逐帧生成,模拟物体的动态变化、视角切换及互动效果。
此外,Oasis 的一个重要的技术创新是“动态加噪”技术。这是一种在推理时使用的噪声注入机制,专门为解决长时生成中的误差累积问题设计的。
由于Oasis每帧的生成都是基于前一帧的输出,这种自回归特性使得小的误差会逐渐积累,最终可能导致严重的画面失真,甚至直接崩溃。
为此,Oasis在推理过程中对每一帧注入噪声,通过增加初始帧的噪声来防止误差放大,逐步降低噪声以恢复细节,使模型能够在生成的过程中保持一致性。
这种动态加噪的实现方式在训练过程中得到了优化:模型在训练时已经接触并适应了不同噪声水平的场景,因而在推理时更能处理带有噪声的输入,进一步增强了生成的稳定性。这种机制不仅提升了生成的质量,还有效地降低了对硬件性能的压力。
不过,在实际体验中,Oasis 也存在许多问题。简单来说,所有的问题都可以用一句话概括—— 吃菌子了。
多个玩家提到,在视角转动时会产生错觉,即视野中的场景似乎在切换视角后发生了随机变化,有一种“梦境”感。
场景突然改变,缺乏连续性,特别是在操作停顿一段时间后,游戏世界中的环境似乎会“自行演变”,仿佛在静态时场景也会自行刷新。
这让人感觉到现实解体。甚至有玩家提到,这样的体验带来了生理不适。
这一问题的根源可能在于,Oasis 缺乏长时记忆的支持——每一帧都是模型即时生成的,而不是基于持久的场景数据,因此场景无法在用户的视角切换中保持一致。
另一个问题是,Oasis当前仅支持以360p分辨率和每秒20帧的速率运行,这种低清晰度极大程度上影响了体验。
生成的世界看上去较为粗糙,这一问题与模型的实时生成速度和硬件要求直接相关。
其实这两个问题通俗来说,就是上下文问题和性能问题。
所以,引入短期和长时记忆模块可能可以帮助解决上下文问题。而为提升分辨率,作者团队提到,Oasis 针对 Sohu 进行了优化(Sohu 是由 Etched 构建的 Transformer ASIC),会有不断的性能提升。
在不久的将来,Oasis 或许会发展出更高的分辨率、更流畅的体验、甚至能提供长时记忆,真正实现一个无限演化的虚拟游戏宇宙。
目前游戏的 demo 已经可以直接在线体验了。PC端和手机端都可以直接通过网址游玩。
这款游戏,属于未来。
官方网址:
https://oasis-model.github.io/
体验地址: