注意力机制作用被高估了？苹果等机构新研究：把注意力矩阵替换成常数矩阵后，

2022-11-22 10:59 来源： IT之家阅读量：7985

要说《变形金刚》的核心亮点，当然是注意力机制。可是现在，一项新的研究突然提出了一个有些爆炸性的观点: 注意机制对于预训练变形金刚有多重要，需要打个问号。来自希伯来大学，艾伦人工智能研究所...

要说《变形金刚》的核心亮点，当然是注意力机制。

可是现在，一项新的研究突然提出了一个有些爆炸性的观点:

注意机制对于预训练变形金刚有多重要，需要打个问号。

来自希伯来大学，艾伦人工智能研究所，苹果公司和华盛顿大学的研究人员提出了一种新的方法来衡量预训练变压器模型中注意力机制的重要性。

结果表明，即使去掉注意机制，某些变压器的性能变化也不大，甚至与原模型相差不到十分之一！

这个结论让很多人惊讶，也有网友调侃:

你亵渎了这个领域的神！

那么，如何判断注意机制对变形金刚模型的重要性呢。

把注意力转向一个常数矩阵。

这种新的测试方法叫做PAPA，全称是预训练语言模型注意机制的检测与分析。

PAPA采用的方法是将预训练语言模型中依赖输入的注意矩阵替换为常数矩阵。

如下图所示，我们熟悉的关注机制是通过Q和K矩阵计算关注权重，然后作用于V，得到整体权重和输出。

现在，Q和K的部分直接用常数矩阵C代替:

常数矩阵c计算如下:

然后用6个下游任务对这些模型进行测试，比较PAPA前后模型的性能差距。

为了更好地检验注意机制的重要性，模型的注意矩阵并不是一次性完全用一个常数矩阵代替，而是逐渐减少注意头的数量。

如下图所示，研究中使用了BERT—BASE，RoBERTa—BASE和DeBERTa—BASE，其中Y轴代表性能，X轴代表与原始相比注意力头的下降:

然后，将BERT—LARGE，RoBERTa—LARGE和DeBERTa—LARGE用作实验:

通过对比结果，研究人员发现了一些有趣的现象:

首先，用常数矩阵代替一半的注意力矩阵对模型的性能影响不大，甚至在某些情况下可能会导致性能的提高。

其次，即使关注头数减少到零，平均性能也会下降8%，与原模型相比不超过20%。

人们认为，这一现象表明，预训练语言模型并不那么依赖于注意机制。

模型的性能越好，就越依赖于注意机制。

可是，即使在预先训练的变压器模型中，性能也不完全相同。

如下图所示，其中Y轴代表每个模型的平均性能，X轴代表当所有关注矩阵替换为常数矩阵时模型性能的相对降低分数:

可以看出，以前的模型性能越好，用常数矩阵代替注意力矩阵的损失就越高。

这说明模型本身的性能越好，利用注意机制的能力就越强。

对于这个研究，有网友觉得很棒:

听起来很酷现在很多架构过于关注各种计算和性能任务，却忽略了是什么改变了模型

但也有网友认为，单纯从数据上无法判断架构变化是否重要。

例如，在某些情况下，注意机制带来的隐藏空间中数据点的振幅变化仅为2—3%:

这种情况下还不够重要吗不一定

如何看待《变形金刚》中注意力机制的重要性。

论文地址:

参考链接:

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

精选导读

以产业振兴促乡村振兴砀山迈瑞科技产业园开工仪式举行

4月28日，砀山迈瑞医疗科技产业园开工仪式在安徽省砀山县顺利举行。宿州市委书记杨军，宿州市委常委、常务副市长任东，宿州市政府驻广东办事处主任...

发布时间： 2022-05-09 10:40

产业

江西南昌：服装产业复工忙

5月3日，南昌创隆制衣有限公司的工作人员在车间进行拉布工序。随着江西本轮新冠疫情防控形势逐渐向好，各企业陆续复工复产。作为全国知名针织服装出...

发布时间： 2022-05-09 10:37

产业

从业务全球化到品牌全球化中国品牌“走出去”探索新价值

先进的液晶模组生产线、高频运转的生产设备、智能化的运营操控……今年4月，海信位于印度尼西亚首都雅加达的彩电基地正式投产，这也是中国企业从业务...

发布时间： 2022-05-09 10:34

互联

助力煤炭清洁高效利用我国煤气化制氢技术应用取得新进展

记者从中海石油炼化有限责任公司（以下简称中海炼化）获悉，我国煤气化制氢技术应用取得新进展，截至5月7日，位于广东惠州的我国首套采用E-Gas...

发布时间： 2022-05-09 10:34

互联

全国粮食春播4.92亿亩进度过半

目前，粮食主产区正趁着天气晴好，争抢播种。全国春播粮食4.92亿亩，完成预定面积一半以上，进度快于去年同期。近两天，东北春播加快，日播种量超...

发布时间： 2022-05-07 10:23

天舟四号货运飞船和长征七号运载火箭已转场，感觉良好、整装待发

据中国航天科技集团官方消息，运载此次发射的长征七号五运载火箭与天舟四号货运飞船组合体，今天上午从总装测试厂房垂直转运至发射区，将于近期发射。...

发布时间： 2022-05-07 10:13

注意力机制作用被高估了？苹果等机构新研究：把注意力矩阵替换成常数矩阵后，

精选导读

以产业振兴促乡村振兴砀山迈瑞科技产业园开工仪式举行

江西南昌：服装产业复工忙

从业务全球化到品牌全球化中国品牌“走出去”探索新价值

助力煤炭清洁高效利用我国煤气化制氢技术应用取得新进展

全国粮食春播4.92亿亩进度过半

天舟四号货运飞船和长征七号运载火箭已转场，感觉良好、整装待发

每日热点

热门TAG

最新内容

头条推荐

注意力机制作用被高估了？苹果等机构新研究：把注意力矩阵替换成常数矩阵后，

精选 导读

以产业振兴促乡村振兴 砀山迈瑞科技产业园开工仪式举行

江西南昌：服装产业复工忙

从业务全球化到品牌全球化 中国品牌“走出去”探索新价值

助力煤炭清洁高效利用 我国煤气化制氢技术应用取得新进展

全国粮食春播4.92亿亩进度过半

天舟四号货运飞船和长征七号运载火箭已转场，感觉良好、整装待发

每日热点

热门TAG

最新内容

头条推荐

精选导读

以产业振兴促乡村振兴砀山迈瑞科技产业园开工仪式举行

从业务全球化到品牌全球化中国品牌“走出去”探索新价值

助力煤炭清洁高效利用我国煤气化制氢技术应用取得新进展