论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
物联网
›
物联网
›
Longformer:一种实用于长文档处理的可扩展Transformer ...
Longformer:一种实用于长文档处理的可扩展Transformer模子 ...
南飓风
论坛元老
|
2025-1-14 23:16:25
|
显示全部楼层
|
阅读模式
楼主
主题
1030
|
帖子
1030
|
积分
3090
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
今天给大家分享一篇文章,主题是关于一种专为长文档设计的全新Transformer模子——Longformer。信赖许多朋侪在处理自然语言处理(NLP)使命时都遇到过类似的难题:面临超长文本,传统模子通常必要将其拆分成多个短片段,既增长了复杂度,也可能丢失重要的上下文信息。那么,是否有一种方法能够直接处理长文本,同时保持计算服从?Longformer正是为了解决这一问题而诞生。接下来,让我们一起来了解它是怎样通过创新的注意力机制以及强大的性能表现,突破传统Transformer的限制的!
老样子,我还是按照Paper的结构对这篇文章举行详细剖析,感兴趣的可以自行阅读原文。
1. Abstract
基于Transformer的模子无法处理长序列,这是因为其自注意力机制的计算复杂度随着序列长度呈二次增长。为了解决这一限制,本文引入了Longformer,一种注意力机制,其计算复杂度随序列长度线性增长,从而能够轻松处理包含数千个token或更长的文档。Longformer的注意力机制可以直接替换标准的自注意力机制,并联合了局部窗口注意力和基于使命需求的全局注意力。基于此前关于长序列Transformer的研究,在字符级语言建模使命上对Longformer举行了评估,并在text8和enwik8数据集上取得了最先进的结果。与之前的大多数工作相比,本文对Longformer举行了预练习,并将其微调用于多种下游使命。经过预练习的Longformer在长文档使命上始终优于RoBERTa,并在WikiHop和TriviaQA数据集上创下了新的最先进成绩。最后,本文推出了Longformer-Encoder-Decoder (LED),这是支持长文档天生序列到序列使命的Longformer变体,并在arXiv择要数据集上展示了其卓越的结果。
2. Introduction
Transformer(Vaswani 等,2017)在天生式语言建模(Dai 等,2019;Radford 等,2019)和判别式语言明白(Devlin 等,2019)等广泛的自然语言使命中取得了最先进的结果。这一成功部分归功于其自注意力机制,自注意力使网络能够从整个序列中捕捉上下文信息。固然这种机制非常强大,但自注意力的内存和计算需求随着序列长度的增长呈二次方增长,从而使得处理长序列变得不可行(或代价极高)。
为了解决这一限制,本文提出了 Longformer,一种经过修改的 Transformer 架构,其自注意力操纵的计算复杂度随着序列长度线性增长,使其能够高效处理长文档(如图 1 所示)。这为长文档分类、问答(QA)和指代消解等自然语言使命提供了优势。在这些使命中,现有的方法通常会将较长的上下文分别或截短为更小的序列,以满足 BERT 风格的预练习模子通常的 512 个 token 限制。然而,这种分别可能会导致重要的跨片段信息丢失。为缓解这一问题,现有方法通常依赖于复杂的架构来处理这种信息交互。而本文提出的 Longformer 能够通过多层注意力机制构建整个上下文的表征,淘汰了对特定使命架构的依赖。
完整文章链接:Longformer:一种实用于长文档处理的可扩展Transformer模子
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
南飓风
论坛元老
这个人很懒什么都没写!
楼主热帖
零信任介绍
容斥原理
开源SPL助力JAVA处理公共数据文件(txt ...
使用 Helm 安装 MQTT 服务器-EMQX ...
数理逻辑第1-3章
Ubuntu如何安装Mysql+启用远程连接[完 ...
dotnet 修复在 Linux 上使用 SkiaSharp ...
DOS窗口命令和单表简单查询
Java笔记(13) 简单的Lambda表达式 ...
.gitignore文件配置以及gitee提交报Pus ...
标签云
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表