qidao123.com技术社区-IT企服评测·应用市场

标题: 【深度学习|Transformer模型学习】Transformer 块的起源、发展和概述!快来 [打印本页]

作者: 杀鸡焉用牛刀    时间: 2024-12-23 19:03
标题: 【深度学习|Transformer模型学习】Transformer 块的起源、发展和概述!快来
【深度学习|Transformer模型学习1】Transformer 块的起源、发展和概述!快来看看吧

【深度学习|Transformer模型学习1】Transformer 块的起源、发展和概述!快来看看吧

提示:写完文章后,目次可以主动生成,如何生成可参考右边的帮助文档

  

欢迎宝子们点赞、关注、收藏!欢迎宝子们品评指正!
祝全部的硕博生都能碰到好的导师!好的审稿人!好的同门!顺利结业!
   大多数高校硕博生结业要求需要到场学术会议,发表EI大概SCI检索的学术论文会议论文:
可访问艾思科蓝官网,欣赏即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz
  Transformer 块的详细论述

1. 什么是 Transformer 块?

Transformer 是一种基于自注意力机制(Self-Attention)的神经网络架构,最初被提出用于自然语言处理任务,特别是在呆板翻译范畴。Transformer 块是构成 Transformer 模型的根本单位,它在输入序列中计算每个元素与其他元素之间的关系,从而有用捕捉长期依靠关系
Transformer 块包罗两个主要部分:

每个 Transformer 块的布局通常包罗:

2. Transformer 的起源和发展

Transformer 由 Vaswani 等人在 2017 年提出,名为《Attention is All You Need》的论文中举行了详细先容
Transformer 的提出,彻底改变了自然语言处理(NLP)范畴的神经网络架构。以前,序列模型(如 RNN、LSTM 和 GRU)依靠于递归计算,而 Transformer 通过自注意力机制消除了这种依靠,使得序列中的每个元素都可以同时被处理,从而显著提高了计算效率
Transformer 的最大长处是可以并行计算,相较于 RNN/LSTM,Transformer 在训练时能更有用地使用现代硬件(如 GPU)的并行计算本领。因此,它成为了很多自然语言处理任务中的主流架构,并在呆板翻译、文本生成、语言理解等范畴取得了巨大的成功。
随着 Transformer 的盛行,很多变种和优化模型也随之涌现,如:

3. Transformer 块的作用

Transformer 块的核心作用是通过自注意力机制捕捉输入序列中各个部分之间的全局依靠关系,从而使得每个位置的表示不但包罗局部信息,还包罗远距离的信息。这样,Transformer 模型能够高效地处理长序列,并且能够在多种任务(包罗NLP和CV)中体现出色。
Transformer 块的核心构成部分
3.1. 自注意力机制(Self-Attention)

自注意力机制通过计算输入序列中每个元素与其他元素的相似度(通常使用点积)来决定各个元素之间的权重。对于每个位置                                    i                              i                  i,计算其对其他位置                                    j                              j                  j 的注意力值。自注意力机制的公式为:

其中,                                   Q                              Q                  Q 是查询矩阵(Query),                                   K                              K                  K 是键矩阵(Key),                                   V                              V                  V 是值矩阵(Value),而                                              d                            k                                       d_k                  dk​ 是键向量的维度。
3.2. 多头注意力(Multi-Head Attention)


3.3. 前馈神经网络(Feed-Forward Neural Network)


土木建筑、城市主题

第二届城市建设与交通运输国际学术会议(UCT 2025)


第五届智慧城市工程与公共交通国际学术会议(SCEPT 2025)


第六届土木建筑及灾害防控国际学术会议暨第三届智慧城市建筑与底子设施耐久性国际学术会议 (CADPC & DuraBI 2025)


2025年工程管理与安全工程国际学术会议 (EMSE 2025)



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4