4个令人兴奋的爆火AI项目,已开源!

2024年3月30日15:17:04 发表评论 807 °C
摘要

开源项目分析、DBRX、AniPortrait、FRESCO、VoiceCraft、动画生成、视频转绘、音频生成

大家好,今天继续聊聊科技圈发生的那些事。

一、DBRX

全球最强?开源 AI 大语言模型宝座的头把交椅易主?把 GPT 都整趴下了?

是的,你没有看错!Databricks 公布旗下 Mosaic Research 团队开发,号称最强开源 AI 大模型的 DBRX 已开源。

我们先来看看项目主页的简介:

Helping data teams solve the world's toughest problems using data and AI

翻译过来就是,帮助数据团队使用数据和人工智能解决世界上最棘手的问题。

真行么??

一个不可否认的事实:在性能方面,DBRX 公布的官方数据是战胜了现在的所有开源模型,包括 GPT-3.5、Llama-2 以及前不久刚开源的 Grok-1。

先来看看这些数据:

  • DBRX 用了约 1320 亿的参数,大约是 Grok-1 的1/3。
  • 模型一次性激活 360 亿个参数(这几乎是模型参数总数的1/4!),大约是 Llama-2 的一半,也就是说速度是翻倍的。
  • 部署运行需要的显存大约是 264G ,大约是 Grok-1 的一半,对硬件需求大大降低了。

再看这张图:

4个令人兴奋的爆火AI项目,已开源!

简单来说就是 DBRX 在语言理解、编程和数学方面的表现都已经超越了已有的开源模型。

啥概念?用的参数比你们少,硬件需求比你们低,但是我速度更快,性能还更好!

更多的数据比较可以在 Databricks 发布的 Introducing 中看到。

链接:

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

一切的一切都在说明,除了那些未开源的 LLM 模型(这里不点名 OpenAI和谷歌),DBRX 似乎真的遥遥领先了。至于它会在行业内掀起怎样的风浪,且让我们拭目以待吧。

最后,对这个项目的介绍,用一句 Hugging Face 工程师对 DBRX 的评论结束:

太狂野了!!!

项目地址:

https://github.com/databricks/dbrx

二、AniPortrait

腾讯游戏团队开发的由音频驱动的人像动画合成工具。

通过这个有趣的项目,你能看到:

唱着《Rap God》的蔡徐坤

4个令人兴奋的爆火AI项目,已开源!

阻止你说脏话的李云龙

4个令人兴奋的爆火AI项目,已开源!

亲切的张亮

4个令人兴奋的爆火AI项目,已开源!

让我们一起看看项目的框架:

4个令人兴奋的爆火AI项目,已开源!

首先,提取音频中的头部姿势和面部信息,进行投影,生成目标姿势图像。然后通过扩散模型生成完整的视频。

项目包括了三种可采取的生成方法:

  • 面部重塑(Face reenacment)
  • 自我驱动(Self driven)
  • 音频驱动(Audio driven)

这也是一个可以本地部署体验的项目,有一定的硬件要求。而环境的搭建,权重信息,训练方法,作者团队都在主页给出了详细的说明。

顺提一句,这玩意对标的应该是阿里家的 EMO,也可以期待一手=下两个项目接下来的发展。

项目地址:

https://github.com/Zejun-Yang/AniPortrait

三、FRESCO

基于 Stable Diffusion 的零成本视频转绘工具。SD 也算是我们的老朋友了。

我们给出一个简单的视频。FRESCO 可以帮我们把它转绘成不同风格下的视频,就像是给视频打上了不同的滤镜。

比如,蒙娜丽莎式的。

4个令人兴奋的爆火AI项目,已开源!

类似这样的 gif 图和完整的视频,在项目主页上还展示了很多。

4个令人兴奋的爆火AI项目,已开源!

FRESCO 有几个鲜明特点:

  • 使用帧内和帧间约束,比单独使用光流具有更好的一致性和覆盖率。
  • 无需对模型进行训练,无需进行微调。
  • 兼容现有的模型,可以灵活使用,实现更好的效果。

我们可以看看 FRESCO 的 GUI 界面,还是很简洁的。给出要求的主题提示词句,FRESCO 就能生成新的转绘视频。

4个令人兴奋的爆火AI项目,已开源!

另外, FRESCO 提供了很丰富的高级选项,包含很多可调的参数,可以对视频转绘进行更精细的调控。

4个令人兴奋的爆火AI项目,已开源!

目前项目存在的缺点是,显存占用过高,即使你的硬件配置已经很不错了,但仍无法很好的生成高分辨率的视频。另外,FRESCO 只能使用 Diffusion 格式的模型。

项目地址:

https://github.com/williamyang1991/fresco

四、VoiceCraft

零样本语音编辑和文本到语音的训练。也就是一个克隆或编辑声音的模型。

VoiceCraft 是一种令牌填充神经编解码器语言模型,它在语音编辑和对有声读物、互联网视频和播客等在线数据的零样本文本到语音(TTS)方面都实现了最先进的性能。

而这个模型最突出的点就是,快!要克隆或编辑一个新的声音, VoiceCraft 只需要几秒钟的时间即可完成。

我们来试听一段 VoiceCraft 生成的音频示例:

But when I had approached so near to them The common object, which the sense deceives, Lost not by distance any of its marks.

作者团队已经将一整个模型开源,而模型的训练需要使用者自己完成。不过作者团队给出了完整的训练方法。

4个令人兴奋的爆火AI项目,已开源!

训练方法

截止目前,项目仍然在不断更新,项目主页的 TODO 项目仍不断减少。作者团队称,项目将会在 24 年 3 月底解决所有亟待完善的问题。

项目地址:

https://github.com/jasonppy/VoiceCraft

感兴趣的小伙伴可以持续关注项目更新。

好了,今天的内容就是这么多,我们下期见!

weinxin
微信公众号
分享技术,乐享生活:微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: