该死，这糟糕的心动感，AI杀疯了！

2024年5月10日16:26:22 发表评论 335 °C

摘要

开源项目分享：ConsistentID、pykan、StoryDiffusion

大家好，今天继续聊聊科技圈发生的那些事。

一、ConsistentID

通过多模态细粒度身份保护生成肖像，为人们定制一致的 ID。说人话，如果给定一些输入 ID 的图像，ConsistentID 能根据文本提示生成多样化的图像，也就是所谓的“换脸”，只不过将“替换”转变为“生成”。

该死，这糟糕的心动感，AI杀疯了！

我们对于 ID 的概念可能有些模糊，比如在 HTML 中我们可以给盒子打上 id 属性，使用苹果手机的小伙伴也一定有一个 Apple ID，ID 到底应该怎么定义？说白了，ID 就是身份，这里提到的保证 ID 的一致，其实就是确保前后是同一个人。因此，确保 ID 一致的前提下，如何实现高质量的面部细节，成为了定制面部生成的主要挑战。

该死，这糟糕的心动感，AI杀疯了！

而 ConsistentID 通过多模态细粒度 ID 信息来保持身份一致性，并捕捉不同的面部细节，且ConsistentID 只使用单张面部图像。

该死，这糟糕的心动感，AI杀疯了！

ConsistentID 包括两个关键模块：

多模态面部提示生成器，包括一个细粒度的多模态特征提取器和一个面部 ID 特征提取器，能够利用多条件生成更详细的面部 ID 特征，包括面部图像、面部区域以及从多模态大语言模型中提取的相应文本描述。

ID 保存网络，利用从第一个模块获得的面部识别特征，通过面部注意力定位策略，提升一致性。该死，这糟糕的心动感，AI杀疯了！

作者团队提供了 Huggingface 的在线体验地址，不过目前好像有些问题，不知道在看到这篇文章的时候是否已经被解决了。感兴趣的小伙伴，可以自行关注一下。

在线体验地址：

https://huggingface.co/spaces/JackAILab/ConsistentID

项目地址：

https://github.com/JackAILab/ConsistentID

二、pykan

全新的神经网络，来了！

该死，这糟糕的心动感，AI杀疯了！

Kolmogorov-Arnold Networks (KAN) 是 MIT、加州理工和东北大学等顶尖名校的团队受柯尔莫哥洛夫-阿诺德表示定理的启发提出的全新神经网络，作为传统 MLP 模型的替代品（也可以说是一个更好的升级版方案）。

我们先来看看这个名字拗口的定理 —— 柯尔莫哥洛夫-阿诺德表示定理，究竟是啥？

Kolmogorov-Arnold 表示定理指出，对于一个二维连续动力系统，在某些条件下，可以将系统中的任何不含奇点的局部可积分系统通过适当的坐标变换映射成一个线性的系统。

没有看懂，不过没关系。我们只需要搞明白，学术团队基于这玩意，究竟受到了什么启发，才能开发出 KAN 呢？

该死，这糟糕的心动感，AI杀疯了！

在这张对比图中，我们可以清楚地看到 KAN 的创新点：KAN 在边缘（权重）上设置可学习的激活函数，而传统 MLP 在节点（神经元）上设置固定的激活函数。这就是 KAN 最核心的突破口。

相信对于神经网络，我们都知道激活函数将输出变成非线性的，这使得结果可以逼近一个非线性函数。通常，这个激活函数是人为选择的，而 KAN 做的事情，就是在选择激活函数这一步交给了机器学习，让它们自己决定最合适的激活函数。

于是我们可以看到 KAN 的几个优点：

KAN 的扩展速度比 MLP 快
KAN 在参数较少的情况下比 MLP 更准确
KAN 可以直观地可视化，易交互

三层KAN的训练过程

所以，KAN 是否真的能成为传统的 MLP 的上位替代呢？让我们拭目以待。

项目地址：

https://github.com/kindxiaoming/pykan

三、StoryDiffusion

这个项目的简介很有意思，Create Magic Story!

StoryDiffusion 是一款长距离视频和图像生成框架，它的侧重点主要是在于长距离，也就是对于一件持续时间很长的事情，生成中应如何保持前后一致的问题。

我们先来看看两个由 StoryDiffusion 生成的小故事：

该死，这糟糕的心动感，AI杀疯了！

效果还不错！画风挺新颖的，故事的情节也很连贯。

我们先谈谈什么是自注意力机制，在单个序列中，将不同位置进行关联，不断比较，以计算序列的表示。在这里，自注意力机制可以保证后续生成的部分与前面的内容不出现偏差。

该死，这糟糕的心动感，AI杀疯了！

StoryDiffusion 主要有两项技术突破：

提出了一种无需训练、可热插拔的注意力模块，称为 "一致的自注意力"（Consistent Self-Attention）。它可以在生成的图像序列中保持前后一致性。
提出了一个新的运动预测模块，称为语义运动预测器（Semantic Motion Predictor）。可以预测语义空间中两幅图像之间的转换，生成明显更稳定的长距离视频帧，并能轻松将其放大到分钟级。

该死，这糟糕的心动感，AI杀疯了！