超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former 世界最资讯
极市导读
本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效,称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群,走在计算机视觉的最前沿
(资料图)
1 Conv2Former:Transformer 风格的卷积网络视觉基线模型1 Conv2Former:Transformer 风格的卷积网络视觉基线模型(来自南开大学,字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果
论文名称:Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
论文地址:https://arxiv.org/pdf/2211.11943.pdf
1.1.1 背景和动机以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展,它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block),并采用金字塔结构 (pyramid network architecture),但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路,将注意力机制引入到 CNN 中以捕获远程依赖,获得了更好的性能。
自从 2020 年以来,视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展,在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比,Transformer 中的自注意力机制能够对全局的成对依赖进行建模,提供了一种更有效的空间信息编码方法。然而,在处理高分辨率图像时,自注意力机制导致的计算成本是相当大的。
为了解决这个问题,一些 2022 年经典的工作试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型?
比如 ConvNeXt[1]:将标准 ResNet 架构现代化,并使用与 Transformer 相似的设计和训练策略,ConvNeXt 可以比一些 Transformer 表现得更好。
从原理和代码详解FAIR去年的惊艳之作:全新的纯卷积模型ConvNeXt
再比如 HorNet[2]:通过建模高阶的相互作用,使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。
精度超越ConvNeXt的新CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互
再比如 RepLKNet[3],SLaK[4]:通过 31×31 或者 51×51 的超大 Kernel 的卷积,使得纯卷积模型可以建模更远的距离。
又对ConvNets下手了!详解SLaK:从稀疏性的角度将卷积核扩展到 51×51
到目前为止,如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。
1.1.2 卷积调制模块本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为
式中,
为了简单起见,这里省略了 scale factor,自注意模块的计算复杂度随着序列长度N的增加呈二次增长,带来了更高的计算代价。
在卷积调制模块中, 不通过2式计算相似度得分矩阵
式中,
优势: 卷积调制模块利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。
ConvNeXt 表明,将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而,进一步增加 Kernel 的大小几乎不会带来性能上的提升,反而会在没有重新参数化的情况下增加计算负担。但作者认为,使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former,当 Kernel Size 从 5×5 增加到 21×21 时,可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上,也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率,默认的 Kernel Size 大小可以设置为 11×11。
权重策略的优化: 注意这里作者直接将深度卷积的输出作为权重,对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层,也没有使用归一化层 (例如 Sigmoid 或 LN 层),如果像 SE 模块那样加一个 Sigmoid 函数,会使性能降低 0.5% 以上。
1.1.3 Conv2Former 整体架构如下图3所示,与ConvNeXt 和 Swin Transformer 相似,作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage,每个 Stage 的特征分辨率依次递减。根据模型大小尺寸,一共设计了5个变体:Conv2Former-N,Conv2Former-T, Conv2Former-S, Conv2Former-B,Conv2Former-L。
当可学习参数数量固定时,如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3),并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到,对于一个小模型 (参数小于30M),更深的网络表现更好。
ImageNet-1K 实验分为两种,一种是直接在 ImageNet-1K 上面训练和验证,另一种是先在 ImageNet-22K 上预训练,再在 ImageNet-1K 上微调和验证。
ImageNet-1K 实验设置
数据集:ImageNet-1K 训练 300 Epochs,ImageNet-1K 验证。
优化器: AdamW, lr
ImageNet-22K 实验设置
数据集:ImageNet-22K 预训练 90 Epochs,ImageNet-1K 微调 30 Epochs,ImageNet-1K 验证。
如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M),与 ConvNeXt-T 和 Swin-T 相比,Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs,其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型,Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%),后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。
如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比,当模型尺寸相似时,Conv2Former 都表现得更好。此外,我们可以看到,当在更大的分辨率384×384 上进行微调时,Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果,Conv2Former-L 达到了 87.7% 的最佳结果。
如下图8所示是关于卷积核大小的消融实验结果。在 大小增加到 21 × 21 之前,性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel 不会带来明显的性能提升。
消融实验1:卷积核大小
如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前,性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。
消融实验2:不同融合策略的影响
如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在
直筒架构实验结果
遵循 ConvNeXt 的做法,作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本,结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18,并调整通道数以匹配模型大小。字母 "I" 表示直筒架构,可以看到,对于 22M 参数左右的小型模型,Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时,Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy,这也比 ConvNeXt-IB 高 0.7%,比 DeiT-B 高0.9%。
目标检测实验结果
如下图10所示是不同骨干网络,以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型,使用 Mask R-CNN 框架时,Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。
语义分割实验结果
如下图11所示是不同骨干网络,以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型,我们的Conv2Former可以优于Swin Transformer和ConvNeXt。
总结本文试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former,它通过只使用卷积和 Hadamard 积,简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。
参考
^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity公众号后台回复“CNN100”,获取100 篇 CNN 必读的经典论文资源下载
极市干货
技术干货:数据可视化必须注意的30个小技巧总结|如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门实操教程:Nvidia Jetson TX2使用TensorRT部署yolov5s模型|基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程#极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式:添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~标签:
推荐
- 超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former 世界最资讯
- 焦点速讯:为什么煮汤圆会粘底?
- 滴水贷款逾期26年会上征信系统吗?
- [快讯]三孚新科:民生证券股份有限公司广州三孚新材料科技股份有限公司部分募投项目延期的核查意见 焦点速看
- 老舍语言的魅力
- 每日动态!鹏华中证国防ETF净值下跌1.33% 请保持关注
- 新鲜蘑菇煮面条怎么做 新鲜蘑菇煮面条做法-当前讯息
- 天命在梅西,天命归中华
- 52栋全国首批零碳数智楼宇试点单位公布
- 当前快讯:明新旭腾: 明新旭腾2022年第二次临时股东大会会议资料
- 今日热闻!宁波联合:如有相关信息,公司将按照信息披露规定及时予以披露
- 突发!这家A股实控人被判20年,并处罚金5150万!-每日精选
- 协鑫集成: 简式权益变动报告书(二) 全球微头条
- A股异动 | 广生堂涨8% 一类广谱抗新冠口服小分子创新药GST-HG171关键性注册临床试验首例受试者入组
- 2022年12月21日特斯拉股票(TSLA.US)实时行情
- 全球球精选!圣济堂(600227)12月21日主力资金净买入87.70万元
- 远兴能源:阿拉善天然碱项目一期计划 2023年 6 月建设完成,生产线逐步投料试车
- 每日消息!湖北发布八条措施助力涉疫药品医疗器械促产保供
- “阳”了咋办?如何用药?哪里就医?应对疫情五个指南上线!你想知道的都在这里_每日视讯
- 63岁结婚,12年后公开吐槽妻子,这种爱情令人欣慰,未生育成遗憾 精选
- 最新:金橙子(688291.SH):拟使用2.77亿元募集资金向苏州金橙子增资 用于实施募投项目
- 天天通讯!刘敏涛清凉照曝出,气质碾压靳东,霸气与贤淑切换自如的北方姑娘
- 凌钢股份:12月16日获融资买入434.60万元,占当日流入资金比例17.62% 世界视点
- 世界热点评!卡梅隆透露《阿凡达3》已拍完《阿凡达5》也写好了
- 每日播报!OPPO:三年要给一加投100亿元 要做两千元以上手机市场第一
- 当前热讯:2023年法兰克福展参展企业达1250家,国内企业超140家
- 天天热点!PineTab2将于2023年初发布,一台开源且易于维护的ARM Linux平板电脑
- 欧克科技:公司没有口罩机相关业务和生产,但可针对市场变化及时应变_当前短讯
- 盲盒板块12月15日跌1.16%,高乐股份领跌,主力资金净流出1.01亿元
- 每日消息!外媒:卢拉要求巴西明年与委政府复交
- 宝能系拟减持华侨城A1.64亿股或套现9.8亿元-每日热门
- 焦点播报:故意伤害罪未遂怎么判刑啊
- 首届全球数字贸易博览会顺利闭幕 引进投资总额约1100亿元
- 世界聚焦:恒华科技:750MW光伏项目总投资额40亿元左右 建设周期预计为2年
- 中国香港宣布调整防疫措施并推进正常通关 港股相关板块大幅飙升
- 考研首次全国大规模借考:考生不动,试卷怎么动
- 12月12日基金净值:景顺长城新能源产业股票A最新净值1.2251,跌0.91%|天天报资讯
- 丰素美3D数字化形体健康管理服务,突破美业门店经营困局
- 中际旭创:目前已在部分产品的关键原材料上积极导入了国产供应商
- 联创光电: 第七届董事会第三十九次会议决议公告 天天讯息
- 成宜高速12月9日零时起正式联网收取车辆通行费 收费期限暂定20年_世界时讯
- 珈伟新能设供应链管理子公司,经营范围含半导体照明器件销售
- 嘉华股份董秘回复:大豆制品是我国重要的传统植物蛋白食物,居民具有强烈的大豆制品消费倾向 当前滚动
- 超四成转化至制造业领域!我国科技成果转化合同项数超46万项
- 前4个月甘肃外贸进出口总值209.8亿元 同比增长8.1%
- 株洲首座220千伏“多站合一”变电站将于6月投运
- 合肥市龙河口引水工程取水口围堰顺利合龙
- 中宣部:斩断伸向未成年人的盗版侵权“魔爪”
- 国务院开展根治欠薪冬季专项行动 为农民工追讨欠薪68.62亿元
- 坚决打击网络暴力 帮助网民切实维护自身权益
- 七台河市鹿山煤矿二井发生矿震 4人被困井下
- 暂停27天后 福建仙游火车站重启
- “大工匠”传经送宝
- 黑龙江七台河一煤矿发生矿震 目前井下4人被困
- 湖南临澧凌晨拉响防空警报 回应:短路引起故障
- 广东国庆假期高速公路车流总量超5000万车次 大湾区车流量同比增长10%
- 南海热带低压加强为台风 海南发布台风三级预警
- 广东升级广交会期间疫情防控举措 所有持证人员核酸检测“应检尽检”
- 国庆假期北京市接待旅游总人数861.1万人次
- 高福、童贻刚团队:新冠病毒溯源将是一场“持久战”
- 四川水利国庆假期全力应战最强秋汛
- 南海热带低压将于8日夜间至9日上午在海南岛东部登陆
- 聊天群背后的黑色产业链 金钱诱惑下被害人变成害人者
- 黑龙江省绥化市全域均为低风险地区
- 走近网瘾少年们:他们沉迷网络的病根何在?
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- “双减”后首个长假:亲子游、研学游需求集中释放
- 天山脚下,触摸丝路发展新脉动
- 且看新疆展新颜
- 《山海情》里“凌教授”的巨菌草丰收啦
- “双减”出台两个月,组合拳如何直击减负难点?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 国庆主题花坛持续展摆至重阳节
- 云南保山:170公里边境线,4000余人日夜值守
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 嘉陵江出现有记录以来最强秋汛
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
X 关闭
行业规章
X 关闭