14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等 ...

打印 上一主题 下一主题

主题 692|帖子 692|积分 2076

在深度学习技术的飞速发展中,Transformer模型无疑成为了当今研究的热点,它凭借其独特的架构和强大的表达能力,在天然语言处理、计算机视觉和语音识别等领域取得了令人瞩目的成果。

本日,特意为大家整理了14篇Transformer热门论文,这些论文涵盖了注意力机制、架构改进以及适用性扩展等多个方向,一起看看Transformer方向近期的研究成果和希望吧!

┃Attention机制改进与替代


1、Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers(AAAI2024)

重新思考注意力:探索浅层前馈神经网络作为Transformer中注意力层的替代方案

简述:本文研究探究了使用简单的浅层前馈网络来模拟Transformer模型中注意力机制的有用性,研究用浅层前馈网络替换了Transformer中注意力机制的关键元素,并通过知识蒸馏对这些网络进行练习。在IWSLT2017数据集上的实行表明,这些“无注意力的变形金刚”与原始架构的性能相当。通过消融研究和替代网络试验,支持了该方法的可行性,这表明浅层前馈网络在简化序列到序列使命的复杂架构方面具有潜力。




2、Fairness-Aware Structured Pruning in Transformers(AAAI2024)

Transformer中的公平感知结构化剪枝

简述:本文研究分析了注意力头如何影响基于转换器的预练习语言模型中的公平性和性能,并提出了一种新方法,用于修剪对公平性产生负面影响的注意力头,同时保留对性能至关紧张的注意力头。这种方法实用,因为它不需要微调最终修剪的模型。研究结果表明,与有偏见的模型相比,不同尺寸的模型在淘汰性别偏见的同时,性能仅略有降落。




3、FLatten Transformer: Vision Transformer using Focused Linear Attention(ICCV2023)

FLatten Transformer:使用聚焦线性注意力的视觉Transformer

简述:本文提出了一种聚焦线性注意力模块,旨在提高效率和性能。通过分析线性注意力的局限性,研究人员引入了映射函数和秩恢复模块,加强了自我注意力的体现力,同时保持较低的计算复杂度。实行证实,该模块适用于多种视觉转换器&#x

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

我可以不吃啊

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表