程序员欢乐送（第44期）

2019年12月6日09:00:59 3 798 °C

摘要

程序员欢乐送：ASFF、Talking Head Anime、TRECVID、MarioNETte、音轨分离算法、NIMA、Write-A-Video

程序员欢乐送（第44期）

一直保持的追求有三点：技术、快乐、财富，这里记录每周值得分享的内容，周五把欢乐送达。

技术

1、ASFF

ASFF是一种新的特征融合方式，通过学习权重参数的方式将不同层的特征融合到一起，这样的融合的效果要优于concat和sum方法。

同时，提出ASFF自适应特征融合方式的作者在YOLOv3的基础上吸取了很多优秀的经验，构建了一个非常强劲的目标检测baseline。

mAP提升非常明显：

对于这种新的特征融合方法ASFF感兴趣的朋友，可以看一下。

项目地址：点击查看

2、Talking Head Anime

这是一个有趣的项目，可以让2D的头像动起来。

作者是名叫Pramook Khungurn的死宅少年，他想到用深度学习自己做一只虚拟偶像小姐姐，把手动2D建模的繁琐步骤跳过去，直接用一张静态图，生成会动的虚拟偶像。

搭配一个面部追踪算法，就能让动漫妹子图随着视频里的人脸，做出相同的动作。

技术实现上，主要有两个功能：一是表情变化器 (Face Morpher) ，二是脸部旋转器 (Face Rotator) 。两者均采用GANimation算法实现，同时，网络也借助了基于Appearance Flow的视角合成算法，让图片中的3D物体转起来。

网页demo和论文已发，开源代码暂未公布，感兴趣的朋友可以关注一下。

网站地址：点击查看

3、TRECVID

TRECVID是一个视频检索挑战赛，紧随图像建模技术的提升，机器学习已经不再满足图像识别与检索了，它的「进阶版」视频理解通常不仅需要理解图像内容，同时还需要理解图像之间的联系。

每年 TRECVID 都吸引了 CMU 和微软等顶级研究机构，它代表着跨模态视频检索领域最前沿的研究方向。

近日，阿里安全图灵实验室视频理解团队获得了 TRECVID 2019 视频检索任务冠军。

视觉检索技术可以帮助我们做很多有意义的应用，例如我只需输入「帮我找到人躺在沙发上的视频镜头」这样一句查询语句，模型就能在海量视频库中检索到对应的视频片段。

阿里安全图灵实验室采用的算法思路是将视频与文本映射到相同的高维空间，从而学习它们之间的关系。

他们主要关注优化视觉和文本序列建模方法，采用了三种子模块来加强效果，图卷积模型、序列模型和聚合模型三者会通过一个控制门来确定它们各自对最终嵌入向量的贡献。

整体来讲，视频检测技术涉及的内容还是很多的，实现起来较为复杂，就算所有特征都准备就绪，百万级别的视频检索的计算效率也是一个需要面对的问题。

很多大公司都在做这方面的探索，因为这些技术可以应用内容安全方面，例如视频不良场景识别、视频违禁品识别、视频公众人物识别等等。而有视频业务场景的公司，早晚都要面对视频审核、视频版权保护等具体业务。

视频检索是一个发展趋势，感兴趣的朋友，可以多多关注。

挑战赛地址：点击查看

4、MarioNETte

近日，韩国公司 Hyperconnect 就提出了这样一款「大咖秀」AI 模型，可以让爱因斯坦、奥黛丽·赫本等一众大咖模仿你的面部表情和动作。

Hyperconnect 公司提出的这一模型名为 MarioNETte，原义为「牵线木偶（marionette）」。

顾名思义，这款应用实现的操作就是对目标人物的「操控」。而且实现起来非常简单，只需要目标人脸的少量照片和给出动作的人物视频，合成人物的逼真度和各项指标都超越了之前的 few-shot 方法。

当然，这种「大咖秀」技术并非韩国研究者首创。之前的研究者利用 CycleGAN 或其他 few-shot 方法来实现这一目标，但方法各有缺陷。

人脸生成、换脸技术生成的效果越来越逼真，各种使用AI技术造假的视频层出不穷。而且随着技术的进步，造假视频已经变得越来越真假难辨，也引发了全球范围内的担忧。

近日，中国也发布了相关规定，明年1月1日起，AI造假视频不得随意发布。

5、音轨分离算法

对歌曲音轨的分离研究有很多，大多数都是在频域上进行分离的，这类方法是先把声音进行傅立叶变换，再从频谱空间中把人声、乐曲声分别抽离出来，例如在《程序员欢乐送（第42期）》推送中提到的spleeter。

近日，Facebook AI 研究院提供了两种波形域方法的PyTorch实现，分别是Demucs和Conv-Tasnet，两种算法的测试结果均优于其他常见的频域方法。

项目地址：点击查看

6、NIMA

NIMA是一个图像质量评估算法，图像质量和美学的量化一直是图像处理和计算机视觉长期存在的问题。

技术质量评估测量的是图像在像素级别的损坏，例如噪声、模糊、人为压缩等等，而对艺术的评估是为了捕捉图像中的情感和美丽在语义级别的特征。

NIMA能够从直接观感（技术角度）和吸引程度（美学角度）预测人类对图像的评估意见的分布。

从直观角度：

从美观角度：

项目地址：点击查看

7、Write-A-Video

通常，视频的剪辑需要一些专业的技术，镜头的切换，节奏的掌握都需要一定的经验。

Write-A-Video 是一个挑战自动剪辑的技术，只要你输入一段描述，这个算法会自动裁剪出你想要的片段。

整个流程是：用户以文本的形式提供输入一段描述，Write-A-Video会挑选出句子中的关键词，利用这些关键词，算法自动把素材库里与之相匹配的候选片段挑出来，并根据片段裁剪出相应的镜头，最终将这些镜头组合在一起，完成视频的剪辑。

视频地址（需翻墙）：点击查看

论文地址：点击查看

快乐

1、甲方的要求一定要满足

2、和妈妈打电话时

财富

12月份了，马上年底，支付宝积分就要过期了。有积分的赶紧花积分吧，比如：

很可惜，我缺的不是那1000积分。

对于只有几千积分的人来说，还是有一些实惠的选择的。

比如可以兑换一些小东西，例如精品好货里的抽纸、U型枕、食品盒等，这些小东西都是需要花3000-5000的积分，讲道理应该是包运费的。有些20积分兑换的小礼品，不包邮费的，都已经标记。

不想换实物的，也可以换下精品好物中的15元代金券（1500积分），结合双十二的超市优惠活动，又可以“剁手”了。

还有一种比较合适的就是换成线下支付红包，例如30元的线下支付红包（8970积分），兑换成功后会得到3张10元红包，消费满10.1元，线下支付可用，不过这个比较火爆，需要抢一下。

积分不够的，也可以试试3元红包（897积分）和1元红包（299积分）。

最后，再说说股市。

我定投的500ETF，这半年多来，表现平平，一直处于平稳震荡阶段，今天赚点明天亏点的，但幅度有限，目前处于小亏损状态。

近期，机构也进行了调仓，医药、酿酒、食品饮料的行业股票都跌了不少，例如之前气势如虹的贵州茅台，最近也跌了不少，但指数整体没有下跌。

回望这半年多，创业板的表现确实很好，机构的钱应该是流向了这里。

虽然也是大幅震荡，但呈震荡上扬的走势。

年初时，我的计划是，中证500和创业板各定投一些，但后来因为刚毕业，资金有限，就选择了整体更稳的中证500定投。现在看来，我的眼光确实“不错”，中证500确实很“稳”，到现在了，它真就不涨也不跌。

年底了，手里也存了一点钱，找个时机，创业板也跟着入点吧。

最后

本周的程序员欢乐送，到此结束，下周再会。

微信公众号

分享技术，乐享生活：微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。

程序员欢乐送（第44期）