大家好,今天继续聊聊科技圈发生的那些事。
一、MagicTime
MagicTime 是一款由北大团队开发的新框架,用于生成可变时间延时视频( Metamorphic Videos )。简单一点来说,就是可以基于文本提示,展示物体变化的过程,并生成我们熟知的延时摄影视频。
我们先来看一个例子:
这张动图上展示了一块冰融化成水的过程。看到这里,可能还是有些许疑惑:这个模型和看过的一大堆模型比,到底特殊在哪?这不就是很正常的 T2V 生成吗?
那么,我们将 MagicTime 生成的视频,和一般模型生成的视频进行一个比较:
transitioning from a tightly closed bud to a fully bloomed state(从紧闭的花蕾过渡到完全绽放的状态)
这下,我们能很清晰的看到,MagicTime 生成的视频“活”起来了。这也是开发团队研究的主要工作,通常来说,生成变化过程的视频对于模型来说是很困难的,因为模型不仅需要根据文本生成正确的信息,还需要跟随时间,展示出变化的过程。对于现有的模型来说,在生成这样的视频时,它们往往无法很好的遵循现实世界的物理规律,比如 Sora 的演示视频中凭空出现的小狗。
而 MagicTime 的开发团队通过自主设计的 MagicAdapter 方案,可以解耦空间和时间训练,从而编码更多的物理知识,使图像更符合现实。基于传统的 T2V 模型,MagicTime 在预训练 T2V 的基础上进行转换,从而生成我们看到的延时视频。
团队还将 MagicTime 集成到了先前介绍过的北大 Open-Sora-Plan 中,在同一标注框架中使用额外的变质景观延时视频进行扩展,以获得 ChronoMagic-Landscape 数据集。然后利用该数据集对 Open-Sora-Plan 进行微调,得到 MagicTime-DiT 模型。在项目的主页上,也对模型生成效果进行了部分展示。
顺提一嘴,开发团队似乎对《我的世界》这款游戏情有独钟,项目已生成的 demo 中,有很大一部分都是展示 Minecraft 中的建筑过程。相信不少游玩过这款游戏的玩家都和我一样,在看到演示 demo 是自己喜欢的游戏画面时,都会忍不住往下翻翻吧。
项目地址:
https://github.com/PKU-YuanGroup/MagicTime
二、StreamingT2V
StreamingT2V 是一款自回归方法 T2V 模型。我们先看看这个项目的介绍:根据文本生成一致、动态和可扩展的长视频。
相较于它的竞争对手们,StreamingT2V 最大的优势就在于——长。
一般来说,目前的 T2V 模型都是生成一个较短的视频,比如 16 帧或是 24 帧,这样的视频长度,通常都能以一个 gif 图的形式呈现在我们面前,甚至不需要用到什么视频播放器。而如果通过这样的短视频生成模型强行生成一个长视频,或许质量就不怎么样了。StreamingT2V 上来就提供了一个 1200 帧的视频,长达两分钟。
视频截图节选
这样的优异表现,是如何实现的呢?团队设置了一个名为条件注意模块(CAM)的短期记忆块,它通过注意机制将当前生成的视频与从上一个视频块中提取的特征联系起来,从而实现一致的视频块转换;相应的,也有一个名为外观保存模块的长期记忆块,从第一个视频块中提取高级场景和物体特征进行记忆,并在后续不断进行比对,确认一致;另外,团队还利用随机混合方法,在长视频中应用视频增强器,这样就不会出现几个视频块之间不一致的情况。
种种说法似乎都指向了一个关键点,在视频生成过程中不断与先前已生成的部分进行比较,短时比较上一个视频块,长时比较最初始的视频块。
在项目的阶段图中可以看到,团队将工作流程分为了三个阶段:
- Initialize Stage 初始化
- Streaming T2V Stage T2V生成
- Streaming Refinement Stage 优化阶段
在初始化阶段,团队利用一个 T2V 模型生成视频的开头部分,也就是上文有提到的第一个视频块,然后在 Streaming T2V 阶段,运用自回归,不断生成后续的帧,这也是为什么 StreamingT2V 可以生成无限长的视频。最后,对已生成的视频进行质量优化。
项目已经开源,感兴趣的小伙伴可以关注看看。
项目地址:
https://github.com/picsart-ai-research/streamingt2v
三、APISR
看看这个画质,难道是精灵宝可梦要出重制版了吗?
事实上,这是 APISR 的杰作。这是一款开源的动漫图像超分辨率重建工具。专门面向动漫画面进行视觉效果提升。
在这里,我们可以看到:
崭新出厂的绫波丽
换了新帽子的大雄
团队发现,传统的动漫超分辨率重建中重复使用了很多手绘帧,这似乎是非必要的。因此团队提出了一个动漫图像收集管道,从视频源中选择压缩率最低、信息量最大的帧。在此基础上,团队提出了 API 数据集。
模型提出了面向预测的压缩模块,以模拟单一图像输入的多种压缩降级。运用视频压缩算法,压缩了单帧的输入。然后合成压缩伪影,也就是视频画面中可能会模糊的部分,模型会学习压缩伪影的各种恢复方式,然后对其进行修复,最后实现整个画面的超分辨率重建。这个方法针对手绘帧的动漫画面,可以有非常棒的修复表现。
效果比较
在二次元动漫分辨率重建这个赛道上,APISR 确实取得了很不错的表现。项目团队准备了在线体验的网址。可以自行体验一下。
在线体验地址:
https://huggingface.co/spaces/HikariDawn/APISR
项目地址:
https://github.com/kiteretsu77/apisr
好了,本期的内容就是这么多,我们下期再见!