热推荐：2022 全球 AI 模型周报

本周介绍 5 个计算机视觉领域的深度学习模型：多尺度视觉模型 MViT, 能够处理更大图像的 Swin Transformer V2, 全能型多模态模型 CoCa, 端到端的视频语言学习 Violet, 实现视频理解大一统的 All in one

如果你觉得我们分享的内容还不错，请不要吝啬给我们一些免费的鼓励：点赞、喜欢、或者分享给你的小伙伴。

(资料图片仅供参考)

https://github.com/towhee-io/towhee/tree/main/towhee/models

MViT: 多尺度视觉 Transformers

出品人：Towhee 技术团队顾梦佳

Facebook 人工智能研究院和加州大学伯克利分校在2021年联合推出计算机视觉领域 SoTA 模型 Multi Vision Transformer (MViT)¹，如今在图像分类、视频理解等任务中成为最热门的选择之一。MViT 在视觉 Transformer 结构中引入多尺度特征分层，从而优化了模型性能。实验表明，MViT 在 ImageNet 图像分类、CoCo 图像目标检测、Kinetics-400 视频动作分类三个不同领域的任务中均能取得优异的结果。

MViT (Multiscale Vision Transformers)

MViT 根据通道尺寸与分辨率分为不同的尺度阶段，在降低视觉分辨率的同时分层扩展特征的复杂性。随着阶段的变化，空间分辨率从初始输入值开始逐渐减小，而通道容量则逐步增加。该架构从始至终都使用全局注意力，通过降低图片分辨率来减少计算量。

相关资料：

模型代码：https://github.com/towhee-io/towhee/tree/main/towhee/models/multiscale_vision_transformers

论文：Multiscale Vision Transformers (https://arxiv.org/pdf/2104.11227.pdf)

更多资料：FAIR提出MViT：多尺度视觉Transformer (https://zhuanlan.zhihu.com/p/367226267)

CVPR 2022 Swin Transformer V2：用更少的参数处理高分辨率图像

出品人：Towhee 技术团队徐锦玲、顾梦佳

还在为模型变大，效果不好且不易收敛而烦恼吗？微软针对图像预训练模型 Swin Transformer² 提出 Swin Transformer V2，解决了大型视觉模型训练的三个主要问题：训练不稳定性、预训练和微调之间的分辨率差距、对标记数据的激烈需求。Swin Transformer V2 成功把 Swin Transformer 缩放到 30 亿个参数，并能够接受高达 1536×1536 分辨率的图像。

Swin Transformer V1 vs V2

Swin Transformer V2 主要改进了 Swin Transformer，在减少参数量的同时，使得模型能够处理更高分辨率的图像。由于原本的 Swin Transformer 直接把残差模块加到了主分支上，网络深层的激活值变得很大，与浅层特征的激活值之间有很大的 gap，导致模型变大后会出现训练不稳定的问题。Swin Transformer V2 把 LayerNorm 放到残差计算后面，并提出 scaled cosine attention代替原来的缩放点击，用以解决缩放点击带来的被少数像素点主导的问题。另外，之前的 Swin Transformer 在处理图像分辨率不一致的问题时使用的方法会导致局部最优。而改进后的模型使用网络在对数空间产生连续的输入，以平滑相对位置进行编码。

相关资料：

模型代码：https://github.com/towhee-io/towhee/tree/main/towhee/models/swin_transformer

论文：Swin Transformer V2: Scaling Up Capacity and Resolution（https://arxiv.org/pdf/2111.09883.pdf）

更多资料：Swin Transformer V2 论文解析（https://zhuanlan.zhihu.com/p/445876985）

由 CVPR 2022 收录，谷歌发表全能型多模态模型 CoCa

出品人：Towhee 技术团队顾梦佳

谷歌在今年在 CVPR 2022 上提出 CoCa （Contrastive Captioners）³，不仅能够胜任文本图像多模态领域常见的对比任务，还增加了生成式任务，即生成图像对应的文本描述。生成式任务通常比对比学习任务更难，而 CoCa 则机智地选择了结合两种任务。这使其在众多下游任务中都表现优秀，比如图像分类、视频理解、跨模态检索等，尤其在 ImageNet-1K 图像分类中刷新了 top-1 记录，获得了 91.0% 的准确率！

Overview of Contrastive Captioners (CoCa)

多模态基础模型通常分为三种：单编码器分类（Single-Encoder Classification）、双编码器对比学习（Dual-Encoder Contrastive Learning）、编码器-解码器生成任务（Encoder-Decoder Captioning）。CoCa 在编码器-解码器的基础上融合了另外两个种结构。它将文本解码器均分成两个部分：单模态文本解码器（unimodal text decoder）和多模态文本解码器（multimodal text decoder）。与此同时，在输入文本的最后增加一个 cls token。其中，单模态文本解码器不参与对图像特征的 cross-attention，而 cls token 经过单模态解码器之后就能获得整个文本的全局特征。另外，CoCa 在图像编码器中使用attention pooling 得到图像的全局特征。最后，CoCa 通过两个全局特征就可以实现图像-文本的对比学习。

相关资料：

模型代码：https://github.com/towhee-io/towhee/tree/main/towhee/models/coca

论文：CoCa: Contrastive Captioners are Image-Text Foundation Models (https://arxiv.org/abs/2205.01917)

更多资料：CoCa：对比+生成式任务构建“全能型多模态模型” (https://zhuanlan.zhihu.com/p/518035855)

性能 SOTA！端到端的视频语言学习 VIOLET

出品人：Towhee 技术团队张晨、顾梦佳

VIOLET(VIdeO-LanguagE Transformer) ⁴由 UCSB 和微软联合提出，是一个完全端到端的 Video-Language Transformer。综合分析证明，通过视频 Transformer 和 MVM 进行显式时间建模更加有效。VIOLET 在5个视频问题回答任务和4个文本到视频检索任务中取得了新的最先进的性能。

Overview of the proposed end-to-end VIdeO-LanguagE Transformer

VIOLET 采用了视频 Transformer 来明确地模拟视频输入的时间动态。以前的研究发现视频输入的预训练任务（如遮蔽帧建模）比较低效，为此 VIOLET 设计了一个新的预训练任务：遮蔽视觉标记建模 Masked Visual-token Modeling（MVM），用以更好地进行视频建模。具体来说，原始视频帧斑块被 "tokenized "为离散的视觉 token，目标是根据被遮蔽的斑块恢复原始视觉 token。

相关资料：

模型代码：https://github.com/towhee-io/towhee/tree/main/towhee/models/violet)

论文：End-to-End Video-Language Transformers with Masked Visual-token Modeling (https://arxiv.org/pdf/2111.12681v2.pdf)

更多资料：https://zhuanlan.zhihu.com/p/440800319

All-in-one 一统视频理解模型

出品人：Towhee 技术团队

2022 年新推出的跨模态预训练视频模型 All-in-one 旨在探索统一视频理解的解决方案，减少了模型参数，提高了推理速度，使视频理解更加落地。All-in-one 经过微调后能够被应用到各种下游视频-文本任务中，包括文本视频检索、视频问答、多项选择和视觉常识推理，尤其性能屠榜各大视频问答通用数据集。

All-in-one: Model Overview

通常视频理解模型分为视频编码器、文本编码器、视频文本融合 Transformer 三部分。All-in-one 首次引入了一种端到端的视频语言模型，即 all-in-one Transformer，使用 unified backbone architecture 将原始视频和文本信号嵌入到 joint representations 中。另外，为了克服视频数据的独特时间信息带来的跨模态挑战，All-in-one 引入了一种 token rolling operation，以非参数方式对 video clips 的时域表示进行编码。

相关资料：

模型用例：https://github.com/towhee-io/towhee/tree/main/towhee/models/allinone

论文：All in One: Exploring Unified Video-Language Pre-training(https://arxiv.org/pdf/2203.07303.pdf)

更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/towhee/blob/main/towhee/models/README_CN.md ) ，您的关注是我们用爱发电的强大动力，欢迎 star, fork, slack 三连 :)