分享一些图像相关的开源项目,再聊聊955工作制

2024年3月23日11:25:27 发表评论 152 °C
摘要

FollowYourClick、clarity-upscaler、Open-Sora-Plan、955.WLB、超写实分辨率重建、动图生成

大家好,今天继续聊聊科技圈发生的那些事。

一、FollowYourClick

点一下,玩一年,装备不花一分钱

分享一些图像相关的开源项目,再聊聊955工作制
这样一张简单的小鸟图片,只需要鼠标轻轻点一下,我们就可以让它动起来。

分享一些图像相关的开源项目,再聊聊955工作制

Tune the head

是不是很有意思呢?

FollowYourClick,腾讯开发的动态化图像工具。基于短提示,将图片转化为局部运动的图像动画。通过简单的点击,指定要移动的内容,再给出简短的提示指示如何运动,让我们看到了动起来的图片。

基于传统的图像到视频 (I2V) 模型,作者团队进行了许多改进:

  • 使用第一帧掩蔽策略,显著提高视频生成质量。
  • 提出运动增强模块。传统的I2V方法需要用户提供大量的帧内容描述。而FollowYourClick配备短运动提示数据集,只需要给出简短的提示即可。
  • 提出基于流量的运动幅度控制,更加精确的控制动图的运动速度,使其更加真实。

项目地址:

https://github.com/mayuelala/followyourclick

作者团队在主页上展示了很多有意思的演示视频。不仅有点一下就开怀大笑的皮卡丘,还有油画上发射的火箭等等。效果都还不错。

分享一些图像相关的开源项目,再聊聊955工作制

主页的演示demo

这个项目目前还没有完全开源。大家可以持续关注一下,期待后续的更新。


二、clarity-upscaler

一款开源的写实超分辨率重建工具。

clarity-upscaler就像拿着一把放大镜对着图片扫,扫过之处图像更为清晰,分辨率更高。

分享一些图像相关的开源项目,再聊聊955工作制

修复前(左) 修复后(右)

类似Stable Diffusion和Midjourney这些软件,都是我们比较熟悉的AI绘画软件了。这些软件各有所长,比如Stable Diffusion可控性高,绘画结果比较精细;Midjourney上手门槛低而且更随机化,可能会给出意想不到的惊喜。

而借助clarity-upscaler,我们就可以解决这些绘画软件制作出的图像,纹理不够真实的问题。

分享一些图像相关的开源项目,再聊聊955工作制

更加真实的纹理细节

同时,作者团队也有自己的体验网站。在网站上就可以直接感受到clarity-upscaler的功能了。

网站地址:

https://clarityai.cc/dashboard

上传图片,调整参数,就可以拖动查看效果了。目前可调整的参数主要是以下几个:

  • 控制AI自由度的参数Hallucination,过高会产生“幻觉”,即不真实的效果;过低会使图像没有什么变化。
  • 控制与原图相似度的参数Resemblance,使图像不要过于失真。
  • 控制细节强度的参数Dynamic,过高会导致像素化。

还有可供选择的风格Style、upscaling倍数、控制细节的Fractality几项。可以在团队的网址自行体验。
在项目主页,作者也给出了本地和云的cog部署方案。

分享一些图像相关的开源项目,再聊聊955工作制       项目地址:

https://github.com/philz1337x/clarity-upscaler

项目已经开源,有兴趣的小伙伴可以自己感受看看。


三、Open-Sora-Plan

北大的OpenSora来了!

看到这个项目前面挂着 PKU,后面挂着 Sora,我想没有人能忍住不点进来。可以看到项目 Github主页的 News 和 Todo 上,几乎每一天都有新的问题被解决。

废话少说,我们直接来看看模型。

模型的框架主要由三部分组成:

分享一些图像相关的开源项目,再聊聊955工作制

模型框架图

  • Video VQ-VAE
  • Denoising Diffusion Transformer 去噪扩散Transformer
  • Condition Encoder 条件编码器

这个框架中的很多东西,在Sora的技术报告中都是有迹可循。

团队对实现的细节有以下几点说明。

可变长宽比

参考FiT(Flexible Vision Transformer for Diffusion Model),团队实施了一种动态掩码策略,并行批量训练的同时保持灵活的长宽比。

将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。

分享一些图像相关的开源项目,再聊聊955工作制

动态训练策略

可变分辨率

团队在固定的256x256分辨率上训练,通过使用位置插值,实现可变分辨率的采样。

我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。

可变时长

通过使用VedioGPT将视频压缩至潜在空间,从而支持可变时长生成。同时扩展空间插值至时空维度,实现对变时长视频的处理。

项目地址:

https://github.com/PKU-YuanGroup/Open-Sora-Plan

模型开源了。而开源的目的更是开发团队希望通过社区的力量,在有限的资源条件下尽可能的为这个复现项目添砖加瓦。

希望小伙伴们在持续关注咱自家的Open-Sora的同时,有能力的,也献上一份绵薄之力。


四、955.WLB

一个拥有 33.8k star 数的项目,点进去一看,居然没有任何代码,这个 955.WLB 项目究竟拥有什么魔力?

955.WLB 中 的 955 指的是工作制度,与我们熟知的 996 类似,955 即早九晚五,每周工作五天;而 WLB 呢?其实是英文 Work Life Balance 的缩写,也就是工作和生活的平衡。

这是一份由全国各地大小公司的程序员们合力贡献的名单,上面罗列了全国 955 工作制不加班公司的名单。而作者也提示到,并不是所有在榜的公司都是绝对的 955,可能有些许偏差,但基本都不属 996。而作者本人身处上海,对本地的情况更了解,所以在榜的公司,居上海的占很大一部分。

项目主页readme上很醒目的一句话:

旨在让更多的人逃离 996,加入 955 的行列。

或许,这份项目如此高的 star 数,就是程序员们试图逃离 996 工作制,对美好的 955 生活的期盼吧。

项目地址:

https://github.com/formulahendry/955.WLB


好了,今天的内容就是这么多,我们下期见!

weinxin
微信公众号
分享技术,乐享生活:微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。
Jack Cui

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: