谷歌又搞事，AI无限游戏要来了？！

2024年10月31日01:18:34 发表评论 347 °C

摘要

谷歌团队最新研究成果，AI无限游戏UNBOUNDED！

说起人工智能技术与游戏，你最先会想到什么？

我第一个想到的是电影《失控玩家》中的游戏 NPC 主角 Guy。

一个平凡的银行职员 NPC，原本只是按照指令和见面的每个人打相同的招呼，却因为程序员代码的“失误”意外觉醒了自我意识。

这不仅赋予了他思考和选择的能力，还让他在原本单调的虚拟世界里开始主动追求自己的生活。

最终，Guy 真的像一个真人玩家一样，成为了游戏里栩栩如生的角色，也就是真正的“人工智能”。

谷歌又搞事，AI无限游戏要来了？！

虽然电影始终是电影，但 Guy 的故事展现了人工智能发展的一个潜在方向：AI不再仅仅是预设规则的执行者，而是能理解环境、回应互动，甚至创造独特的个性。

生成式人工智能的快速发展，尤其是大型语言模型（LLM）和视觉生成模型的不断突破，为创建无限的游戏世界带来了新的可能性。

AI不再只是简单地循规蹈矩，而是能够实时生成角色、故事和场景，为玩家的每个选择都带来独特的体验。

例如现有的《AI Dungeon》利用GPT-3，为玩家带来一个可以自由探索和互动的文字冒险世界，剧情随着玩家的每一条指令实时变化；在《Minecraft》的生成式扩展中，AI可以根据玩家的指令，实时生成一些建筑或道具，为游戏带来了更强的沉浸感。

谷歌又搞事，AI无限游戏要来了？！

最近，来自谷歌和北卡罗来纳大学教堂山分校的研究人员带来了 UNBOUNDED —— 一款生成式无限游戏。借助AI，这款游戏突破了传统视频游戏的界限，融合了生活模拟和角色扮演的元素，玩家可以随意探索、互动，体验开放式的实时进化！

谷歌又搞事，AI无限游戏要来了？！

游戏的设计灵感来自詹姆斯·P·卡尔斯的“有限游戏与无限游戏”理论，主张游戏的目的是不断延续互动，而不是达到终点。

在UNBOUNDED中，这种无限游戏的精神被充分体现。

这个世界随着你的每个选择而变化，故事线没有上限，角色也会进化，仿佛每次互动都是一次新的起点。

那么现在，跟随团队的论文，我们来深入剖析一下这款“无限游戏”的技术实现吧！

UNBOUNDED 的实时互动依赖于潜在一致性模型（Latent Consistency Model, LCM），该模型极大提升了文本到图像生成的效率，使得高质量图像在少量生成步骤中即可完成。

LCM的实现原理在于它利用了一种稀疏的层次特征（sparse hierarchical features），通过只提取图像生成中最关键的特征，从而简化了生成过程。

这种方法减少了扩散步骤，不仅大幅提升了生成速度，还保证了图像质量，是 UNBOUNDED 实现“每秒刷新”机制的关键技术支撑。

谷歌又搞事，AI无限游戏要来了？！

UNBOUNDED生成实例为了让玩家能够自定义角色并确保生成的角色在不同场景中的视觉一致性，UNBOUNDED 使用了 DreamBooth 技术对扩散模型进行微调。

DreamBooth 利用了低秩适配（Low-Rank Adaptation, LoRA）技术，在模型生成时仅调整部分权重，以此强化角色的特征和细节表现。

一方面，LoRA 可以通过少量的参数变化实现对生成角色的精确控制，另一方面，它保持了整体生成效率。

这种微调不仅让生成的角色在不同场景中具有一致性，也确保了玩家个性化定制角色时，能够实现高质量、细节丰富的视觉效果。

谷歌又搞事，AI无限游戏要来了？！

在 UNBOUNDED 中，Regional IP-Adapter是确保图像生成一致性的核心技术，专门用于解决传统生成模型在角色和环境生成中相互干扰的问题。

例如，在传统生成中，环境的视觉风格可能会影响角色的外观一致性，而 Regional IP-Adapter 通过动态掩膜机制和块放置技术有效避免了这种干扰。

谷歌又搞事，AI无限游戏要来了？！

动态掩膜机制通过在生成过程的每一层基于角色的文本嵌入（text embedding）和隐藏状态计算出注意力掩膜，从而将角色和环境的生成分离。

这种机制使模型能够分别处理角色和环境，避免彼此间的相互干扰。动态掩膜不仅提升了角色的独立性，还确保了环境生成的一致性，使生成的场景更加稳定。

谷歌又搞事，AI无限游戏要来了？！

此外，Regional IP-Adapter 还采用了块放置技术（Block Drop）进行分层优化，以更好地呈现角色和环境的特征。

生成过程中的下采样层负责场景的整体布局，因此在这些层次中取消了 Regional IP-Adapter 的干预，以保持场景的一致性。

而在上采样层中，适配器则会被激活，以进一步细化角色和环境的视觉表现。通过这种分层控制，UNBOUNDED 能够生成出具有高视觉一致性和细节清晰度的图像，使角色和环境各自独立又相互协调，生成效果更加准确。

谷歌又搞事，AI无限游戏要来了？！

UNBOUNDED 的游戏引擎由 LLM 驱动，通过精炼和优化，将大模型的功能提炼到一个更小、更高效的 Gemma-2B 模型中。

为确保即时响应的体验，UNBOUNDED 团队对 Gemma-2B 进行了专门的蒸馏（Distillation）处理，将较大模型的复杂功能有效压缩到这一小型模型中。

在互动过程中，Gemma-2B 负责模拟角色动作和虚拟世界环境的变化，确保游戏的反应速度接近实时。

这种优化使得模型能够在处理玩家指令时快速生成适应性的响应，支持复杂的角色行为和动态环境。

通过这种方式，UNBOUNDED 实现了高互动性和沉浸式体验，玩家在游戏中每个选择和动作都能触发即时的反馈，使整个虚拟世界的运行更流畅、反应更迅速。

谷歌又搞事，AI无限游戏要来了？！

在UNBOUNDED中，游戏不再是传统意义上的任务清单，而是一个充满未知、无限延展的冒险世界。每一次点击，每一句指令，都可能带来意想不到的惊喜。

准备好了吗？这次冒险，将由你亲手开启！

可能不久的将来，我们就能玩上，生成式无限游戏了！

项目主页：

https://generative-infinite-game.github.io/

论文地址：

https://arxiv.org/pdf/2410.18975

微信公众号

分享技术，乐享生活：微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。

发表评论取消回复

登录 注册 找回密码

登录注册找回密码