马赛克，克星，又火一个，已开源！

2024年4月15日15:47:10 发表评论 384 °C

摘要

MagicTime、StreamingT2V、APISR、超分辨率重建、T2V生成

大家好，今天继续聊聊科技圈发生的那些事。

一、MagicTime

MagicTime 是一款由北大团队开发的新框架，用于生成可变时间延时视频（ Metamorphic Videos ）。简单一点来说，就是可以基于文本提示，展示物体变化的过程，并生成我们熟知的延时摄影视频。

我们先来看一个例子：

马赛克，克星，又火一个，已开源！

这张动图上展示了一块冰融化成水的过程。看到这里，可能还是有些许疑惑：这个模型和看过的一大堆模型比，到底特殊在哪？这不就是很正常的 T2V 生成吗？

那么，我们将 MagicTime 生成的视频，和一般模型生成的视频进行一个比较：

马赛克，克星，又火一个，已开源！

transitioning from a tightly closed bud to a fully bloomed state(从紧闭的花蕾过渡到完全绽放的状态)

这下，我们能很清晰的看到，MagicTime 生成的视频“活”起来了。这也是开发团队研究的主要工作，通常来说，生成变化过程的视频对于模型来说是很困难的，因为模型不仅需要根据文本生成正确的信息，还需要跟随时间，展示出变化的过程。对于现有的模型来说，在生成这样的视频时，它们往往无法很好的遵循现实世界的物理规律，比如 Sora 的演示视频中凭空出现的小狗。

马赛克，克星，又火一个，已开源！

而 MagicTime 的开发团队通过自主设计的 MagicAdapter 方案，可以解耦空间和时间训练，从而编码更多的物理知识，使图像更符合现实。基于传统的 T2V 模型，MagicTime 在预训练 T2V 的基础上进行转换，从而生成我们看到的延时视频。

马赛克，克星，又火一个，已开源！

团队还将 MagicTime 集成到了先前介绍过的北大 Open-Sora-Plan 中，在同一标注框架中使用额外的变质景观延时视频进行扩展，以获得 ChronoMagic-Landscape 数据集。然后利用该数据集对 Open-Sora-Plan 进行微调，得到 MagicTime-DiT 模型。在项目的主页上，也对模型生成效果进行了部分展示。

马赛克，克星，又火一个，已开源！

顺提一嘴，开发团队似乎对《我的世界》这款游戏情有独钟，项目已生成的 demo 中，有很大一部分都是展示 Minecraft 中的建筑过程。相信不少游玩过这款游戏的玩家都和我一样，在看到演示 demo 是自己喜欢的游戏画面时，都会忍不住往下翻翻吧。

项目地址：

https://github.com/PKU-YuanGroup/MagicTime

二、StreamingT2V

StreamingT2V 是一款自回归方法 T2V 模型。我们先看看这个项目的介绍：根据文本生成一致、动态和可扩展的长视频。

相较于它的竞争对手们，StreamingT2V 最大的优势就在于——长。

一般来说，目前的 T2V 模型都是生成一个较短的视频，比如 16 帧或是 24 帧，这样的视频长度，通常都能以一个 gif 图的形式呈现在我们面前，甚至不需要用到什么视频播放器。而如果通过这样的短视频生成模型强行生成一个长视频，或许质量就不怎么样了。StreamingT2V 上来就提供了一个 1200 帧的视频，长达两分钟。

马赛克，克星，又火一个，已开源！

视频截图节选

这样的优异表现，是如何实现的呢？团队设置了一个名为条件注意模块（CAM）的短期记忆块，它通过注意机制将当前生成的视频与从上一个视频块中提取的特征联系起来，从而实现一致的视频块转换；相应的，也有一个名为外观保存模块的长期记忆块，从第一个视频块中提取高级场景和物体特征进行记忆，并在后续不断进行比对，确认一致；另外，团队还利用随机混合方法，在长视频中应用视频增强器，这样就不会出现几个视频块之间不一致的情况。

马赛克，克星，又火一个，已开源！