又火一个惊艳的AI项目,已开源!

2024年7月16日11:12:42 发表评论 303 °C
摘要

Unique3D、Andrej Karpathy 的演讲、Fish Speech

大家好,今天继续聊聊科技圈发生的那些事。

一、Unique3D

Unique3D从单视图图像生成高保真度和多样化纹理的网格。

又火一个惊艳的AI项目,已开源!

项目的主旨其实就是,给出一张图片,可以生成它的3D版本,类似的项目之前也有介绍过。不过这个项目还是挺有意思的,在他们的官网上目前有两个板块:

3D World

给出一张真实世界的图像,可以生成一个3D视图,比如你可以点进去拖动旋转视角。

又火一个惊艳的AI项目,已开源!

参考demo,比如我们从这张图片开始生成,生成完毕后,可以点进去查看360度不同的视角。

又火一个惊艳的AI项目,已开源!

又火一个惊艳的AI项目,已开源!

3D Model

又或者是,给出一个小人物的2D图片,Unique3D可以帮你生成3D版本的模型。

又火一个惊艳的AI项目,已开源!

比如从这张图片上的这个赛博风小姐姐开始生成:

又火一个惊艳的AI项目,已开源!

又火一个惊艳的AI项目,已开源!

你可以上传自己喜欢的环境照片或者人物图片,通过Unique3D来生成相应的3D效果。目前,项目已经在 Huggingface 和 Gradio 上都有了在线体验。

当然,项目的官方网站上有大量可以在线查看、下载的成熟作品,感兴趣的小伙伴可以直接点进去体验看看。

在线体验地址:

https://u45213-bcf9-ef67553e.westx.seetacloud.com:8443/

https://huggingface.co/spaces/Wuvin/Unique3D

项目地址:

https://github.com/AiuniAI/Unique3D

二、Andrej Karpathy 的演讲

Andrej Karpathy,不知道大家对这个名字是否熟悉。如果不熟悉,那你对他的师傅一定有所耳闻,AI女神李飞飞。这哥们的经历也挺风云的,前OpenAI创始成员,曾任特斯拉人工智能和自动驾驶部门负责人,从OpenAI离职了又再回归。不过不可否认的是,他肯定是这个星球上超强的AI学者之一。

去年5月,Andrej Karpathy 刚刚在微软BUILD2023大会上做了一次关于“State of GPT”的演讲,十分精彩,许多网友都说,花那么多金币买来的AI课,甚至不如这次演讲几分钟讲的一半通透。

又火一个惊艳的AI项目,已开源!

最近,Andrej Karpathy 又在伯克利AI黑客松颁奖典礼进行了一次演讲,又对人工智能领域进行了一次新的解读。

又火一个惊艳的AI项目,已开源!

接下来,我们对这次演讲进行一次简单的分享。

Karpathy 首先提到了人工智能的过去与现在,通过神经网络、NVIDIA、GPT等例子,生动形象地介绍了人工智能这些年来的发展与变化。然后又提到了两部电影《她》和《我,机器人》(iRobot在国内也有被翻译成机械公敌的,就和LOL那个兰博的名字一样。这两部电影我都看过,都是很棒的电影),引出了人工智能在电影中的未来愿景,也表现出他自己对于这样美好图景的期盼。

又火一个惊艳的AI项目,已开源!

最后,Karpathy 介绍了一些学习的好方法。他提到,“在很大程度上,成功来自于反复练习和大量的练习”。他通过很多例子解释了这个概念。还说到,“另一件非常有用的事情是保持多巴胺流动”。

演讲还包含很多实际的例子,整个过程非常精彩,干货满满,有很多值得我们学习的地方。

随后他还提出了一个革命性的未来计算机的构想:完全由神经网络驱动的计算机,不再依赖传统的软件代码。

又火一个惊艳的AI项目,已开源!

根据Karpathy的解释,在这种架构下,设备的输入(如音频、视频、触摸,甚至自然语言)将直接传递给神经网络,输出则直接显示为结果,可能是音频/视频,也可能是交互界面在屏幕上。整个计算过程完全依赖于神经网络的处理能力,这种简化的架构将彻底改变计算机的工作方式。

有网友形象地比喻,这类似于人类大脑和躯体的关系:大脑负责处理,而躯干(外设)负责执行输出。

演讲视频地址:

https://www.bilibili.com/video/BV1H4hresENo

三、Fish Speech

Fish Speech是一款全新的TTS模型,由Fish Audio 开发。目前已经可以本地部署使用并进行微调了。

项目的工作流程大致如此:

  • 给定一段 10 秒左右的语音, 将它用 VQGAN 编码.
  • 将编码后的语义 token 和对应文本输入语言模型作为例子.
  • 给定一段新文本, 让模型生成对应的语义 token.
  • 将生成的语义 token 输入 VQGAN 解码, 生成对应的语音.

又火一个惊艳的AI项目,已开源!

目前项目支持中、英、日三种语言。从项目的 demo 中不难看出,作者应该是个原神爱好者。

又火一个惊艳的AI项目,已开源!

接下来,我们可以感受一下具体的效果。咱们截取项目演示中的这个经典例子:

又火一个惊艳的AI项目,已开源!

相信不少小伙伴应该都看过这个视频,愤怒的母亲用全损音质在二次元游戏群怒斥群友不务正业误人子弟。那么,如果让“某二次元游戏”中的角色纳西妲亲自说这段话呢?

是不是别有一番风味?只需要给出一段输入音频作为音源,你可以让任何你想的人来说指定的话了!

项目已经开源,部署和微调的步骤在项目介绍页都已经给出,感兴趣的小伙伴可以关注一下。

项目地址:

https://github.com/fishaudio/fish-speech

好了,本期的内容就是这么多,我们下期再见!

weinxin
微信公众号
分享技术,乐享生活:微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: