又火一个惊艳的AI项目，已开源！

2024年6月5日14:28:48 发表评论 374 °C

摘要

V-Express,automatic,FaceFusion

大家好，今天继续聊聊科技圈发生的那些事。

一、V-Express

V-Express 是一个在参考图像、音频和 V-Kps 图像序列的控制下生成一个会说话的头像视频的开源项目。

V-Express 能够从单张图像生成带有音频的肖像视频，通过平衡不同的控制信号（如音频、姿势和图像）来实现自然的嘴部和面部动作同步。例如，将一张静态照片转换成对话视频。

项目框架

类似的项目我们也分享过很多了，不过，每个项目都有其出色之处。V-Express 研究的重点在于，对于一般的视频生成来说，控制信号的强度各异，如文本、音频、图像参考、姿势、深度图等。在这些信号中，较弱的条件（如音频信号）往往难以发挥作用，因为它们容易被较强的条件（如姿势和原始图像）干扰。这就直接导致了生成效果不佳。V-Express 通过一系列渐进的丢弃操作来平衡不同控制信号，很好的解决了这个问题。

又火一个惊艳的AI项目，已开源！

这个项目的部署也是类似的。安装 Python 环境下所需依赖（项目主页中已列出），然后克隆项目到本地，就可以体验开发团队提供的demo了。

又火一个惊艳的AI项目，已开源！

作者团队还提到，在会说话的人脸生成任务中，当目标视频与参考角色不是同一个人时，选择与参考人脸姿势更相似的目标视频将能获得更好的效果。此外，模型目前在英语上表现较好，其他语言尚未进行详细测试。

项目地址：

https://github.com/tencent-ailab/V-Express

二、automatic

这个项目的简介是，稳定扩散和其他基于扩散的生成图像模型的高级实现。不过从简来说，automatic 就是一个升级版的 Stable Diffusion。

又火一个惊艳的AI项目，已开源！

相信 Stable Diffusion 大家已经很了解了，那么对于 automatic（也可以称作 SD.Next ），我们就来简单说说相对于原版 SD，做出了哪些升级。

SD.Next 支持 Diffusers 和 Original 两种主要后端：

Diffusers：基于Huggingface Diffusers实现，支持所有列出的模型，新安装默认使用此后端。

Original：基于LDM参考实现并由A1111显著扩展，兼容大多数现有功能和扩展，支持SD 1.x和SD 2.x模型，其他模型类型需要使用Diffusers后端。

又火一个惊艳的AI项目，已开源！

SD.Next 支持非常多种类的模型。简单数了一下，大概是20-30种模型可供支持。而有关使用平台，SD.Next 支持nVidia GPU、AMD GPU、Intel Arc GPU、兼容DirectX的所有GPU、兼容OpenVINO的所有设备、Apple M1/M2、ONNX/Olive等。也就是说，只要你是一台正经设备，基本上都能跑通。另外，项目还设置了更好看的用户界面，支持主题切换。

又火一个惊艳的AI项目，已开源！