科技一站

 找回密码
 立即注册
查看: 116|回复: 2

2022 全球 AI 模型周报

[复制链接]

1

主题

1

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2022-11-30 17:54:39 | 显示全部楼层 |阅读模式
本周介绍了 5 个计算机视觉领域的 SoTA 模型,均收录于顶会 CVPR 2022:
AdaptFormer 统一视觉Transformer权重、UniVIP 学习通用视觉表示、ReferFormer 指定目标分割视频、Dual-AI 双流时空通道识别团体行为、清华开源的 FineDiving 构建细致的跳水数据集。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models

<hr/>【CVPR 2022】AdaptFormer 统一权重让视觉 Transformer 更万能

出品人:Towhee 技术团队 顾梦佳( @JJJael

港大、港中文、腾讯AI实验室三大机构联合推出 AdaptFormer,只需不到2%的额外参数就能不断增加视觉 Transformer 的可迁移性。AdaptFormer 即插即用,不仅能适配各种 Transformer 模型,还能胜任不同下游任务,尤其在视频动作识别中表现优异。实验结果证明,AdaptFormer 在参数放大时具有优异的鲁棒性,并且其性能显著优于现有的微调方法。



Fine-tuning: Full vs AdaptFormer

AdaptFormer 从模型的角度引入可学习的参数,仅需要更新一个轻量级模块的权重,是一种有效的 Transformer 自适应方法。与普通的全微调方案相比,AdaptFormer 用 AdaptMLP 代替了 Transformer 编码器中的 MLP。AdaptMLP 由两个子分支组成:左分支中的MLP层与原始网络相同,而右分支是另外引入的用于任务特定优化的轻量级模块。该模块由两个完全连接层、一个非线性激活函数和一个缩放因子组成,与原始 ViT 模型的前馈网络 (FFN) 并行。当处理图像或视频数据的视觉 token 时,能够有效助力模型迁移。
相关资料:

  • 代码:[Github]AdaptFormer
  • 论文:AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition
  • 更多:微调不到0.2%就超越现有微调方法?港大等提出即插即用的轻量级模块AdaptFormer
<hr/>【CVPR 2022】UniVIP 统一自监督视觉预训练,再也不怕复杂图片

出品人:Towhee 技术团队 顾梦佳

自监督学习 (SSL) 有望利用大量未标记的数据。然而,流行的 SSL 方法的成功仅限于单物体为中心的图像。由于忽略了场景和实例之间的相关性以及场景中实例的语义差异,目前主流的 SSL 方法并不适用于更复杂的多物体图片。为了解决上述问题,一个新颖的自监督框架UniVIP 提出,同时在单物体图片数据和非标志性图片数据集上学习通用的视觉表示,有望实现对自监督视觉预训练的统一。大量实验表明,在非标志性图片数据集 COCO 上预训练的 UniVIP 在图像分类、半监督学习、对象检测和图像分割等各种下游任务上都能够实现最先进的性能。 此外,UniVIP 仍然能使用 ImageNet 等单中心对象的图片数据集训练,并且其性能能够超越了当前的自监督对象检测方法,这也证明了UniVIP的普遍性和更多潜能。



Pipeline of UniVIP

UniVIP 成功克服了非标志性图像中随机视图导致的不同语义,能够使用任意图像预训练。 UniVIP 首先会利用无监督的对象提议算法在非标志性的图像中选择性地找到潜在实例,然后创建两个具有重叠区域的视图。通常重叠区域会包含多个实例,能够保证场景的相似度。两个场景视图和实例会经过在线的目标网络,从而获取特征表示。为了提升模型性能,UniVIP 主要考虑了三个层次的表征学习:场景-场景的相似性,场景-实例的相关性,实例-实例的区分性。为了自动衡量实例之间的差异,它采用了最优传输算法。
相关资料:

  • 论文:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
  • 更多:统一自监督框架 UniVIP(CVPR 2022)
<hr/>【CVPR 2022】ReferFormer 统一框架,指定目标进行视频分割

出品人:Towhee 技术团队 顾梦佳

Referring VOS(R-VOS)是一项新兴的跨模态计算机视觉任务,能够基于文本描述对视频中特定目标进行分割。针对该任务,ReferFormer 基于 Transformer 提出了一个简单而统一的框架。它将语言视为查询对象,并直接关注视频帧中最相关的区域。与以往的方法不同,这种端到端的框架极大地简化了任务流水线。在公开数据集 Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences 和 JHMDB-Sentences 上的大量实验都证明了 ReferFormer 的有效性。尤其在 A2D-Sentences 和 JHMDB-Sentences上,ReferFormer 的性能大幅超越了现有的其他模型。



Overall Pipeline of ReferFormer

ReferFormer 引入一小组以语言为条件的对象查询作为 Transformer 的输入,以此让所有查询仅负责找到相关的对象。这些查询会被转化为动态内核,用于捕获关键的对象级信息。同时,模型还会积极发挥卷积滤波器的作用,从特征图中生成分割掩码。通过跨帧链接相应的查询,模型最终能够自然地实现对象跟踪。
相关资料:

  • 代码:[Github] ReferFormer
  • 论文:Language as Queries for Referring Video Object Segmentation
<hr/>【CVPR 2022】时间vs空间,Dual-AI 双管齐下实现团体行为识别

出品人:Towhee 技术团队 王翔宇、顾梦佳

团体行为识别不仅需要识别每个人各自的动作模式,还会给出整个群体的行为描述。不同的团体动作通常包含角色之间的各种互动,单一视角很难建模复杂的团体行为。因此,在团体行为识别中学习角色的时空关系是很关键的。为了解决这个问题,Dual-AI 提出了一种独特的双路角色交互框架,能够灵活地用不同的顺序调度空间和时间 Transformer,从不同视角中获取有用信息来增强角色关系。



Dual-path Actor Interaction (Dual-AI) Learning Framework

Dual-AI 首先使用预训练好的视觉骨干逐帧处理视频,然后通过 ROI Align 得到每帧中人物的特征(不包含时空关系)。基于时序和空间上的匹配分别适应不同类型的行为,Dual-AI 交换先后顺序对这两种模式进行组合,分别通过分类器输出个体和群体的行为预测。比如空间关系更适合预测群体行为,而时间关系更适合捕捉个体行为。另外,Dual-AI 还在实验中引入了一种新颖的多尺度动作对比损失函数 MAC-Loss,该自监督约束损失能够考察不同粒度之间的一致性。
相关资料:

  • 论文:Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition
  • 更多:CVPR 2022 | Dual-AI: 双流的群体行为识别
<hr/>【CVPR 2022】清华开源 FineDiving 动作质量评估数据集,详解跳水动作程式

出品人:Towhee 技术团队 张晨、顾梦佳

现有的动作质量评估方法大多依靠整个视频的深层特征来预测分数,由于推理过程不透明,可解释性与可靠性都比较差。而理解竞技体育视频中动作的高级语义和内部时间结构,成了准确预测和可解释的关键。为实现这一目标,清华大学构建并开源了一个专注于跳水赛事的细粒度视频动作数据集,称为 FineDiving。它针对各种跳水赛事,对动作程式进行了详细注释。



Overview of FineDiving

FineDiving 包含两层语义结构,即所有视频都在两个级别上进行语义标注:动作类型(action Type)和子动作类型(sub-action Type)。其中,不同的动作类别由不同的子动作类别组合生成。FineDiving 还使用了两层时序结构,每个视频中的动作实例都标注了时间边界,并且根据定义好的字典将其分解为连续的步骤。同时,该数据集也标注了来自国际泳联的官方跳水得分(dive score)、裁判分数和难度系数。另外,FineDiving 进一步提出了一种基于过程感知(procedure-aware)的方法来评估动作质量。该框架通过构建新的时间分割注意模块学习过程感知嵌入,能够实现具有更好可解释性的可靠评分。
相关资料:

  • 代码:[Github] FineDiving
  • 论文:FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment
  • 更多:CVPR 2022 Oral | 清华开源FineDiving:细粒度动作质量评估数据集
<hr/>如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
活动信息、技术分享和招聘速递请关注:
如果你对我们的项目感兴趣请关注:
用于存储向量并创建索引的数据库 Milvus
用于构建模型推理流水线的框架 Towhee
回复

使用道具 举报

2

主题

10

帖子

22

积分

新手上路

Rank: 1

积分
22
发表于 2025-2-26 11:09:02 | 显示全部楼层
鼎力支持!!
回复

使用道具 举报

1

主题

13

帖子

26

积分

新手上路

Rank: 1

积分
26
发表于 2025-7-11 00:38:29 | 显示全部楼层
前排支持下了哦~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|科技一站

GMT+8, 2025-8-21 18:53 , Processed in 0.095477 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表