LSP，实时肖像演讲，强得离谱！

2021年10月10日16:56:47 3 3,973 °C

摘要

Live Speech Portraits，实时肖像演讲算法。

LSP，实时肖像演讲，强得离谱！

大家好，我是 Jack。

LSP ，全称是 Live Speech Portraits，实时肖像演讲，简称 LSP。

想歪的，跟我一起面壁。

这个 LSP 可不简单，是一个比较新的算法。

功能是，根据声音，驱动人的头像说话，满足实时性要求。

我们直接看效果吧。

左下角是说话的人，上面是被驱动说话的画面。

虽然画面有时，看起来略显生硬，不过已经进步很多了。

再结合上两天发过的，AI 声音模仿算法。

危！我用python克隆了女朋友的声音！

声音模仿算法 + LSP 算法。。技术再发展发展，着实需要当心了。

我能做的就是，做好科普，让大家都了解这些新技术。

LSP

算法原理

LSP，实时肖像演讲，强得离谱！

LSP 由南京大学 Yuanxun Lu 等人发表。

LSP 算法的实现整体分为四个阶段：

Deep Speech Eepresentation Extraction

采用深度神经网络，提取音频特征和流形投影，将这些特征投射到目标人的语音空间。

Audio to Mouth-related Motion

根据音频特征中学习面部的运动，用的是 LSTM 和 MLP。

Probabilistic Head Motion Synthesis

根据音频特征，预测头部姿势，上半身的运动。

Photorealistic Image Synthesis

根据前几个阶段的结果，生成条件特征图，然后使用 Image to Image 算法进行驱动，生成真实的面部细节，包括皱纹、牙齿等。

更详细的算法原理，可以直接看论文：

点击查看论文

算法测试

LSP 算法已经开源，项目地址：

https://github.com/YuanxunLu/LiveSpeechPortraits

LSP 的开发环境配置起来也不麻烦，安装个 ffmpeg，其它第三方库按照 requirements.txt 安装即可。

LSP，实时肖像演讲，强得离谱！

权重文件放在了 Google 云盘，2G 左右的文件，考虑到很多小伙伴下载不方便。

我帮大家下载好了。

下载链接（提取码：jack）：

https://pan.baidu.com/s/1u9v4MUfg9WZozk-La1BFzw

将下载好的内容，拷贝到项目的 data 目录下即可。

运行如下指令：

python demo.py --id May --driving_audio ./data/Input/00083.wav --device cuda

1	python demo.py --id May --driving_audio ./data/Input/00083.wav --device cuda

根据指定的音频文件，进行驱动，我们可以替换这个音频。

生成的结果放在 results 目录下。

最后

感兴趣的小伙伴可以试试这个算法。

哦，对了，说个题外话，最近看不少读者在学 Python，所以出了一期视频。

B 站视频已发，我花费了大量精力整理的 Python 学习路线，全面的知识点，包含每个阶段的学习目标和学习资料，一些我看过的视频、书籍、网站、文档的推荐。

Python 学习路线一条龙，自学编程不迷茫，有需要的可以去看下：

https://www.bilibili.com/video/BV1Xf4y1j7Np

好了，就说这么多吧，我是 Jack，我们下期见！

微信公众号

分享技术，乐享生活：微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。

目前评论：3 其中：访客 3 博主 0

胡杨

上海市电信 2
回复 2021年10月11日上午8:25 沙发

顶, 支持大佬

墙

美国科罗拉多州布隆菲尔德市Level 3通信股份有限公司 0
回复 2022年3月31日下午5:57 板凳

顶, 支持大佬

yuxin

河南省郑州市河南工业大学(中原路校区) 0
回复 2023年2月10日上午11:10 地板

这个没看到公开训练脚本，只能用几个外国人的头像合成视频。不灵活。不知道崔哥有这个训练脚本吗？

LSP

算法原理

算法测试

最后

发表评论取消回复

目前评论：3 其中：访客 3 博主 0

登录 注册 找回密码

登录注册找回密码