大家好,今天继续聊聊科技圈发生的那些事。
一、DBRX
全球最强?开源 AI 大语言模型宝座的头把交椅易主?把 GPT 都整趴下了?
是的,你没有看错!Databricks 公布旗下 Mosaic Research 团队开发,号称最强开源 AI 大模型的 DBRX 已开源。
我们先来看看项目主页的简介:
Helping data teams solve the world's toughest problems using data and AI
翻译过来就是,帮助数据团队使用数据和人工智能解决世界上最棘手的问题。
真行么??
一个不可否认的事实:在性能方面,DBRX 公布的官方数据是战胜了现在的所有开源模型,包括 GPT-3.5、Llama-2 以及前不久刚开源的 Grok-1。
先来看看这些数据:
- DBRX 用了约 1320 亿的参数,大约是 Grok-1 的1/3。
- 模型一次性激活 360 亿个参数(这几乎是模型参数总数的1/4!),大约是 Llama-2 的一半,也就是说速度是翻倍的。
- 部署运行需要的显存大约是 264G ,大约是 Grok-1 的一半,对硬件需求大大降低了。
再看这张图:
简单来说就是 DBRX 在语言理解、编程和数学方面的表现都已经超越了已有的开源模型。
啥概念?用的参数比你们少,硬件需求比你们低,但是我速度更快,性能还更好!
更多的数据比较可以在 Databricks 发布的 Introducing 中看到。
链接:
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
一切的一切都在说明,除了那些未开源的 LLM 模型(这里不点名 OpenAI和谷歌),DBRX 似乎真的遥遥领先了。至于它会在行业内掀起怎样的风浪,且让我们拭目以待吧。
最后,对这个项目的介绍,用一句 Hugging Face 工程师对 DBRX 的评论结束:
太狂野了!!!
项目地址:
https://github.com/databricks/dbrx
二、AniPortrait
腾讯游戏团队开发的由音频驱动的人像动画合成工具。
通过这个有趣的项目,你能看到:
唱着《Rap God》的蔡徐坤
阻止你说脏话的李云龙
亲切的张亮
让我们一起看看项目的框架:
首先,提取音频中的头部姿势和面部信息,进行投影,生成目标姿势图像。然后通过扩散模型生成完整的视频。
项目包括了三种可采取的生成方法:
- 面部重塑(Face reenacment)
- 自我驱动(Self driven)
- 音频驱动(Audio driven)
这也是一个可以本地部署体验的项目,有一定的硬件要求。而环境的搭建,权重信息,训练方法,作者团队都在主页给出了详细的说明。
顺提一句,这玩意对标的应该是阿里家的 EMO,也可以期待一手=下两个项目接下来的发展。
项目地址:
https://github.com/Zejun-Yang/AniPortrait
三、FRESCO
基于 Stable Diffusion 的零成本视频转绘工具。SD 也算是我们的老朋友了。
我们给出一个简单的视频。FRESCO 可以帮我们把它转绘成不同风格下的视频,就像是给视频打上了不同的滤镜。
比如,蒙娜丽莎式的。
类似这样的 gif 图和完整的视频,在项目主页上还展示了很多。
FRESCO 有几个鲜明特点:
- 使用帧内和帧间约束,比单独使用光流具有更好的一致性和覆盖率。
- 无需对模型进行训练,无需进行微调。
- 兼容现有的模型,可以灵活使用,实现更好的效果。
我们可以看看 FRESCO 的 GUI 界面,还是很简洁的。给出要求的主题提示词句,FRESCO 就能生成新的转绘视频。
另外, FRESCO 提供了很丰富的高级选项,包含很多可调的参数,可以对视频转绘进行更精细的调控。
目前项目存在的缺点是,显存占用过高,即使你的硬件配置已经很不错了,但仍无法很好的生成高分辨率的视频。另外,FRESCO 只能使用 Diffusion 格式的模型。
项目地址:
https://github.com/williamyang1991/fresco
四、VoiceCraft
零样本语音编辑和文本到语音的训练。也就是一个克隆或编辑声音的模型。
VoiceCraft 是一种令牌填充神经编解码器语言模型,它在语音编辑和对有声读物、互联网视频和播客等在线数据的零样本文本到语音(TTS)方面都实现了最先进的性能。
而这个模型最突出的点就是,快!要克隆或编辑一个新的声音, VoiceCraft 只需要几秒钟的时间即可完成。
我们来试听一段 VoiceCraft 生成的音频示例:
But when I had approached so near to them The common object, which the sense deceives, Lost not by distance any of its marks.
作者团队已经将一整个模型开源,而模型的训练需要使用者自己完成。不过作者团队给出了完整的训练方法。
截止目前,项目仍然在不断更新,项目主页的 TODO 项目仍不断减少。作者团队称,项目将会在 24 年 3 月底解决所有亟待完善的问题。
项目地址:
https://github.com/jasonppy/VoiceCraft
感兴趣的小伙伴可以持续关注项目更新。
好了,今天的内容就是这么多,我们下期见!