大家好,今天继续聊聊科技圈发生的那些事。
一、FollowYourClick
点一下,玩一年,装备不花一分钱。
这样一张简单的小鸟图片,只需要鼠标轻轻点一下,我们就可以让它动起来。
是不是很有意思呢?
FollowYourClick,腾讯开发的动态化图像工具。基于短提示,将图片转化为局部运动的图像动画。通过简单的点击,指定要移动的内容,再给出简短的提示指示如何运动,让我们看到了动起来的图片。
基于传统的图像到视频 (I2V) 模型,作者团队进行了许多改进:
- 使用第一帧掩蔽策略,显著提高视频生成质量。
- 提出运动增强模块。传统的I2V方法需要用户提供大量的帧内容描述。而FollowYourClick配备短运动提示数据集,只需要给出简短的提示即可。
- 提出基于流量的运动幅度控制,更加精确的控制动图的运动速度,使其更加真实。
项目地址:
https://github.com/mayuelala/followyourclick
作者团队在主页上展示了很多有意思的演示视频。不仅有点一下就开怀大笑的皮卡丘,还有油画上发射的火箭等等。效果都还不错。
这个项目目前还没有完全开源。大家可以持续关注一下,期待后续的更新。
二、clarity-upscaler
一款开源的写实超分辨率重建工具。
clarity-upscaler就像拿着一把放大镜对着图片扫,扫过之处图像更为清晰,分辨率更高。
类似Stable Diffusion和Midjourney这些软件,都是我们比较熟悉的AI绘画软件了。这些软件各有所长,比如Stable Diffusion可控性高,绘画结果比较精细;Midjourney上手门槛低而且更随机化,可能会给出意想不到的惊喜。
而借助clarity-upscaler,我们就可以解决这些绘画软件制作出的图像,纹理不够真实的问题。
同时,作者团队也有自己的体验网站。在网站上就可以直接感受到clarity-upscaler的功能了。
网站地址:
https://clarityai.cc/dashboard
上传图片,调整参数,就可以拖动查看效果了。目前可调整的参数主要是以下几个:
- 控制AI自由度的参数Hallucination,过高会产生“幻觉”,即不真实的效果;过低会使图像没有什么变化。
- 控制与原图相似度的参数Resemblance,使图像不要过于失真。
- 控制细节强度的参数Dynamic,过高会导致像素化。
还有可供选择的风格Style、upscaling倍数、控制细节的Fractality几项。可以在团队的网址自行体验。
在项目主页,作者也给出了本地和云的cog部署方案。
项目地址:
https://github.com/philz1337x/clarity-upscaler
项目已经开源,有兴趣的小伙伴可以自己感受看看。
三、Open-Sora-Plan
北大的OpenSora来了!
看到这个项目前面挂着 PKU,后面挂着 Sora,我想没有人能忍住不点进来。可以看到项目 Github主页的 News 和 Todo 上,几乎每一天都有新的问题被解决。
废话少说,我们直接来看看模型。
模型的框架主要由三部分组成:
- Video VQ-VAE
- Denoising Diffusion Transformer 去噪扩散Transformer
- Condition Encoder 条件编码器
这个框架中的很多东西,在Sora的技术报告中都是有迹可循。
团队对实现的细节有以下几点说明。
可变长宽比
参考FiT(Flexible Vision Transformer for Diffusion Model),团队实施了一种动态掩码策略,并行批量训练的同时保持灵活的长宽比。
将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。
可变分辨率
团队在固定的256x256分辨率上训练,通过使用位置插值,实现可变分辨率的采样。
我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。
可变时长
通过使用VedioGPT将视频压缩至潜在空间,从而支持可变时长生成。同时扩展空间插值至时空维度,实现对变时长视频的处理。
项目地址:
https://github.com/PKU-YuanGroup/Open-Sora-Plan
模型开源了。而开源的目的更是开发团队希望通过社区的力量,在有限的资源条件下尽可能的为这个复现项目添砖加瓦。
希望小伙伴们在持续关注咱自家的Open-Sora的同时,有能力的,也献上一份绵薄之力。
四、955.WLB
一个拥有 33.8k star 数的项目,点进去一看,居然没有任何代码,这个 955.WLB 项目究竟拥有什么魔力?
955.WLB 中 的 955 指的是工作制度,与我们熟知的 996 类似,955 即早九晚五,每周工作五天;而 WLB 呢?其实是英文 Work Life Balance 的缩写,也就是工作和生活的平衡。
这是一份由全国各地大小公司的程序员们合力贡献的名单,上面罗列了全国 955 工作制不加班公司的名单。而作者也提示到,并不是所有在榜的公司都是绝对的 955,可能有些许偏差,但基本都不属 996。而作者本人身处上海,对本地的情况更了解,所以在榜的公司,居上海的占很大一部分。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 | Afterpay - 上海 Airbnb - 北京 Amazon - 北京/上海 AMD - 上海 Apple - 北京/上海 ArcSoft - 杭州 ARM - 上海 Autodesk - 北京/上海 Booking - 上海 Calix - 南京 Canva - 北京/武汉 Cisco - 北京/上海/杭州/苏州 Citrix - 南京 Coolapk (酷安) - 北京/深圳 Coupang - 北京/上海 CSTC (花旗金融) - 上海 Dell - 上海 Douban (豆瓣) - 北京 Duolingo - 北京 eBay - 上海 eHealth - 厦门 Electronic Arts - 上海 EMC - 上海 EPAM Systems - 上海/深圳/苏州/成都 Ericsson - 上海 Flexport - 上海/深圳 FreeWheel - 北京 GE - 上海 Google - 北京/上海 Grab - 北京 Honeywell - 上海 HP - 上海 HSBC - 上海/广州/西安 Hulu - 北京 IBM (GBS除外) - 北京/上海 iHerb - 上海 Intel - 北京/上海/深圳 LeetCode - 上海 LEGO Group - 上海 Linkedin - 北京 Micro Focus - 上海 Microsoft - 北京/上海/苏州 MicroStrategy - 杭州 Morgan Stanley (IT) - 上海 National Instruments - 上海 Nike - 上海 Nokia - 上海/南京/杭州 Nomura - 上海 NVIDIA - 北京/上海 Optiver - 上海 Oracle - 上海 PayPal - 上海 Philips - 上海/苏州 Pivotal - 北京/上海 Qualcomm - 北京/上海 Rakuten - 上海/大连 Red Hat - 北京/上海/深圳/西安/remote RingCentral - 厦门/杭州/香港 Rippling - 北京/上海 SanDisk - 上海 SAP - 上海 SmartNews - 北京/上海 Snap - 北京/深圳 State Street - 杭州 SUSE - 北京/上海/深圳 The Trade Desk - 上海/深圳 ThoughtWorks - 西安/北京/深圳/成都/武汉/上海/香港 Trend Micro - 南京 Tubi - 北京 TuSimple - 北京/上海 Two Sigma - 上海 Ubisoft - 上海 Unity - 上海 Vipshop (唯品会) - 上海 VMware - 北京/上海 WeWork - 上海 Wish - 上海 Works Applications - 上海 XMind - 深圳 Zhihu (知乎) - 北京 Zoom - 合肥/杭州/苏州<code> 这只是名单的一部分,不难找到许多熟悉的公司名字。 |
项目主页readme上很醒目的一句话:
旨在让更多的人逃离 996,加入 955 的行列。
或许,这份项目如此高的 star 数,就是程序员们试图逃离 996 工作制,对美好的 955 生活的期盼吧。
项目地址:
https://github.com/formulahendry/955.WLB
好了,今天的内容就是这么多,我们下期见!