您当前的位置:首页 >> 传感器
传感器

ICLR Spotlight:Local Attention和静态Depth wise卷积的前世今生

发布时间:2025-09-06

(3) 时序加权。时序加权的所设计规范在原始的Depth-wise变换总括并不会被运用于,然而,时序变换作为一个被国际上数据研究的应用,可以轻而易举的将dynamic物理性质带入Depth-wise变换总括,形成feature dependent的生成加权。

尽管在加权分享上两者的分享范例各不相同,经过试验中,本文注意到以Local MLP(去掉dynamic物理性质的local attention)为例,在channel和spatial也就是说上分享加权的影响并不大,在任何一个也就是说分享加权,均可以降较差基本种概念的旋存量,努力基本种概念优所谓。而在时序加权上,虽然两者各不相同,但Depth-wise变换大部分大部分可以轻而易举兼顾时序物理性质。

各不相同形态在稀少连通、加权分享、时序加权上的对比。D-DW-Conv.透露时序DW变换

3. Depth-wise变换的发挥力

Depth-wise变换和Local Attention的所设计规范如此类似,然而为什么Local Attention取得了如此颇高的发挥力,而Depth-wise变换不会呢?为了证明这一疑虑,短文运用于Depth-wise变换替换Swin Transfomer总括的所有Local Attention模块化,其他形态保持保持稳定(per-LN改动为post-BN),同时为了证明时序DW变换的视觉效果,短文构筑了两种dynamic物理性质的Depth-wise变换:

(1)D-DW-Conv. 第一种dynamic DW变换,有别于和大多DW变换完全一致的加权分享范例,影像空时有分享变换氢,闸口时有单独变换氢。并运用于Global Average Pooling处理input feature,然后通过FC Layer来dynamic预测出时序变换氢。

(2)I-D-DW-Conv. 第二种dynamic DW变换,有别于和Local Attention完全一致的加权分享范例,每个影像(token)有别于单独的生成加权,而在channel head(group)总括分享加权。称为Inhomogeneous Dynamic DW变换。

来看一看试验中结果如何:

ImageNet1k, COCO, ADE20K对比结果

本文运用于与Swin Transformer完全完全一致的基础训练实例和网路形态,在ImageNet分类、COCO检测、ADE20K语义切分总括,基于Depth-wise变换的形态取得了和Swin Transformer完全一致的发挥力,而Depth-wise变换的量化开销还格外小。

所以,Depth-wise变换真的不差!有人会问,是不是在非常大的基本种概念和非常大的比对集上,Local Attention会格外有战术上呢?由于量化资源的管制,短文大部分在Base基本种概念上进行了之外试验中:

ImageNet22k pretraing

在非常大的比对集ImageNet22k上预基础训练的结果可以看出,基于Depth-wise变换的形态大部分大部分与Local Attention不相上下。同类型的ConvNext[1]和repLKNet[2]工作格外是假定了证明。

4. 早期变换强在哪里,如何所设计格外好的基本种概念

既然Depth-wise变换的发挥力也这么好,那为什么长年以来,不会引起人们的国际上关注呢。通过与习惯的CNN对比,注意到早期变换在所设计上,一般保证短文宣称的三个所设计规范。同时Swin Transfomer等形态与习惯CNN相对于,运用于了非常大的kernel Size, 如7x7, 12x12等,大于CNN总括长年运用于的3x3变换。

Depth-wise变换、为了让有效的dynamic物理性质、为了让大kernel size,在加持早期网路基础训练策略性(比对提高、优所谓、正则所谓)等策略性,将是早期变换的强而有力之处。

要说如何所设计格外好的基本种概念,首先要研究既有优秀基本种概念的共性。在稀少URL全面性,下图展示了各不相同形态的的稀少物理性质,得越稀少的基本种概念,得越有助于基础训练收尾的优所谓,造成格外好的精度,同时降较差基本种概念的量化复杂性,使网路可以构筑所设计格外权利的模块化。

(a)变换 (b)global attention (c)local attention、DW变换 (d)1x1变换 (e)fully-connected MLP

此外,短文构筑了一个Relation Graph来阐述基本种概念形态所设计总括造成的一些所设计规范上的演进过程:

图总括ViT和Local ViT就是指其形态总括的attention形态,PVT为较差父范例下的拜楼形态Transformer,Dim. Sep.透露闸口也就是说上稀少所谓,Locality Sep.透露空时有位置连通稀少所谓,LR透露较差父,MS Conv.透露多时间尺度变换。

的关系图总括,都从呈现了共五提高的正则所谓范例或者带入时序加权,随着正则所谓及时序加权的降较差,网路的人为客体也骤然降较差,这种范例带来了优所谓上的好处,使得网路格外容易基础训练想得到格外好的结果,既有试验中结果也比方说证明了此项结论。终究这种稀少所谓与时序性上的演进,会走向基于Depth-wise变换的时序变换。结合早期Large kernel的基础训练规范,并能意味着格外好的发挥视觉效果。

[1] Liu Z, Mao H, Wu C Y, et al. A ConvNet for the 2020s. arXiv preprint arXiv:2201.03545, 2022.

[2] Ding X, Zhang X, Zhou Y, et al. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs. CVPR, 2022.

珠海看白癜风去哪里
天津男科医院
再林阿莫西林颗粒小孩能吃吗
上海皮肤病医院专家预约挂号
广西白癜风医院电话

上一篇: 理性投保!银保监会发布风险提示,购置保险需注意五个要点

下一篇: 【战疫“西历”量 暖心篇】备考、志愿两不误,高三生交出战疫“答卷”

友情链接