大家好,今天继续聊聊科技圈发生的那些事。
一、ToonCrafter
ToonCrafter 可以通过预训练的图像到视频扩散先验来插值两个卡通图像。通俗点说,就是给出起始帧,给出结束帧,ToonCrafter会帮你补全中间的部分,生成一段完整的视频图像。另外,它还有个功能,基于给出的草图,给草图中的内容上色。
ToonCrafter基于图像条件的扩散模型,通过丰富的运动先验来合成复杂的非线性运动和现象。主要包括三个关键的技术:
- 卡通矫正学习:通过对预训练的生成模型进行微调,使其能够更好地理解动画的上下文,并生成与卡通风格匹配的内容。
- 细节注入与传播解码:引入一个基于双参考的3D解码器,使用混合注意力残差学习机制,将有损的帧潜在变量转换回像素空间,并注入输入图像中的细节信息。
- 基于草图的可控生成:ToonCrafter配备了一个帧独立的草图编码器,使用户能够通过草图输入来引导生成过程。
我们来看一个具体的例子:
将这两张图作为起始帧和结束帧,让 ToolCrafter 进行补全。
成功补全风中凌乱的发型,效果生动逼真,灵动飘逸,毫无违和感。
这个工具最优秀的特点是,生成出的gif图体积极小,给出的这些demo示例大多都只有几百KB的大小。同时,还能兼顾生成质量。
项目已经开源,也已经有了 HuggingFace 的在线体验,感兴趣的小伙伴,可以体验看看。
在线体验地址:
https://huggingface.co/spaces/Doubiiu/tooncrafter
项目地址:
https://github.com/ToonCrafter/ToonCrafter
二、Stable-Diffusion-3-Medium
备受瞩目的Stable Diffusion 3,终于开源了!
SD3 自从二月份发布以来,其优秀的性能就一直好评不断。而在几天前的6月12日,Stability AI 正式宣布开源 SD3!
据悉,本次开源的Stable Diffusion 3 Medium 包含20万亿个参数,代表了Stability AI目前的最高水准。在 HuggingFace 上已经可以下载到模型权重文件了。
话不多说,我们先来看看效果:
SD3相比起前代,主要提升了生成图像的细节处理,图像的质量会很高。同时,模型的尺寸非常优秀,即使是在常见的消费级GPU上,也有非常卓越的性能。
顺提一句,SD3已经能支持8k生成了,不过整出来的文件过大,这里就不直接放效果图了。
不过目前也有消息称,SD3在人像生成方面可能会出现一些比较“惊悚”的现象,针对整个人体的生成,SD3似乎有些不着调,就像这样...
或许是数据集的问题,SD3无法理解完整的人类图像,在生成此类图像的时候,就略显尴尬了。
不过,抛开这个问题不谈,SD3绝对是一款优秀的文本生成图像模型!无论是生成图像的精细程度,还是生成效率,都有很大的提升。感兴趣的小伙伴,可以自行体验一下。
在线体验地址:
https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
三、consistent-character
今天咱们要说的第三个项目 consistent-character,是一个偏娱乐向的项目。
这个项目在 HuggingFace 上的介绍非常简单:Create images of a given character in different poses,也就是让图像上的角色以不同的姿势出现。当然,既然要提供prompt生成,常见的换衣服功能也是必不可少的。
所以,我们要第N次请出咱们的皮衣刀客了,每次不知道拿谁当输入素材的时候,总会找到老黄的...
作为示例,咱们就用默认的prompt吧,换身衣服就可以了。
这里一定要记得打开这个选项,让生成的图像能有随机的pose,注入项目的灵魂。
效果还不错!咱们的皮衣刀客瞬间斯文了一把,穿上了笔挺的西装,一副大佬样。可以看到,项目生成的图片给老黄换了几个不同的姿势,甚至是个“无死角”的帅哥呢。
那么,如果我们再换一个prompt,来点不一样的风格呢?
a man, Mohican hairstyle, rocker style undershirt.
男子,莫西干发型,摇滚风格打底衫
画风突变!这感觉,令人有点无法言说。
这个项目目前还没有开源,这里给出 HuggingFace 的地址,可以放上自己想操作的照片,给出prompt,就可以试试这个奇妙的效果了。不过,如果照片分辨率太高,等待时间可能会比较长。感兴趣的小伙伴可以自行体验看看!
在线体验地址:
https://huggingface.co/spaces/fffiloni/consistent-character
好了,本期的内容就是这么多,我们下期再见!