2W8000字 LLM架构文章阅读指北

打印 上一主题 下一主题

主题 1802|帖子 1802|积分 5406

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
<blockquote class="custom-blockquote multiquote-1" style="margin-top: 20px; margin-bottom: 20px; margin-left: 0px; margin-right: 0px; padding-top: 10px; padding-bottom: 10px; padding-left: 20px; padding-right: 10px; border-top-style: solid; border-bottom-style: solid; border-left-style: solid; border-right-style: solid; border-top-width: 1px; border-bottom-width: 1px; border-left-width: 1px; border-right-width: 1px; border-top-color: rgba(222, 198, 251, 0.4); border-bottom-color: rgba(222, 198, 251, 0.4); border-left-color: rgba(222, 198, 251, 0.4); border-right-color: rgba(222, 198, 251, 0.4); border-top-left-radius: 4px; border-top-right-radius: 4px; border-bottom-right-radius: 4px; border-bottom-left-radius: 4px; background-attachment: scroll; background-clip: border-box; background-color: rgb(246, 238, 255); background-image: none; background-origin: padding-box; background-position-x: 0%; background-position-y: 0%; background-repeat: no-repeat; background-size: auto; width: auto; height: auto; box-shadow: rgba(0, 0, 0, 0) 0px 0px 0px 0px; display: block; overflow-x: auto; overflow-y: auto;">   ❝   
大模型架构专栏已经更新了30多篇文章。完备的专栏内容接待订阅: LLM 架构专栏

   
1、LLM大模型架构专栏|| 从NLP基础谈起

  
2、 LLM大模型架构专栏|| 自然语言处置处罚(NLP)之建模

  
3、 LLM大模型架构之词嵌入(Part1)
3、 LLM大模型架构之词嵌入(Part2)
3、 LLM大模型架构之词嵌入(Part3)

  
4、 LLM架构从基础到醒目之 Word2Vec 训练全解析

  
5、 LLM架构从基础到醒目之循环神经网络(RNN)

  
6、 全网最全的LLM架构讲解||LSTM原理

  
7、 LLM架构从基础到醒目之门控循环单位(GRUs)

  
8、 深入探究编码器 - 解码器架构:从RNN到Transformer的自然语言处置处罚模型

  
9、 2w8000字深度解析从RNN到Transformer:构建NLP应用的架构演进之路

  
10、 3w字 使用pytorch实现Transformer

  
11. 全网最全的神经网络数学原理(代码和公式)直观表明 ,全网最全,没有之一

  
12. 20000字的注意力机制讲解,全网最全

  
13. 2w字解析量化技术,全网最全的大模型量化技术解析

  
14. Transformer :数学表明为什么缩放点积会导致更稳定的梯度

  
15. 2W8000字深度剖析25种RAG变体:全网最全~没有之一

  
16. 大模型进化史:从Transformer到DeepSeek-R1的AI厘革之路

  
17. LLMs的知识蒸馏:技术和应用

  
18. 3W6000字相识大模型LLM:摆设、优化与框架

  
19. 2W8000字揭秘RAG:从基础到高级的逆袭,彻底重塑大模型!

  
20. 3W4000字 大模型评估全解析:方法、指标与框架

  
21. 2W6000字 大模型焦点技术综述:微调、推理与优化指南
22. 1W8000 字 探秘 RAG 应用搜刮:从语义搜刮到评估指标的深度解析

  
  
以下是重新整理的部门文章的阅读指北(微信文章 可直接跳转):
1、LLM大模型架构专栏|| 从NLP基础谈起
本文是自然语言处置处罚(NLP)相关的技术科普文章,从界说、应用、术语和工作流程等方面,对NLP举行了全面的解析。

  

  •          NLP界说:致力于让呆板理解、处置处罚和生成人类语言,涵盖自然语言理解(NLU)和自然语言生成(NLG)两个领域,与语音识别不同但常协同工作。
  •          应用领域:包罗情感分析、毒性分类、呆板翻译、命名实体识别等,广泛应用于生活各个方面,如企业相识用户满意度、网络内容审核、语言交流、信息筛选等。
  •          重要术语:文档是基本文本单位;语料库是大量文档聚集,用于训练和评估模型;特征是文本中用于呆板学习模型的可测量属性。
  •          工作流程

    •                数据预处置处罚:包罗分词、词干提取、词形还原、文本归一化和词性标注等技术,目的是进步模型性能并将文本转换为模型能理解的格式。
    •                特征提取:常见方法有词袋模型、TF - IDF、N - grams、词嵌入和上下文词嵌入等,用于将文本转化为数字特征,资助呆板学习模型举行处置处罚。
       
  
  
2、 LLM大模型架构专栏|| 自然语言处置处罚(NLP)之建模 13. 2w字解析量化技术,全网最全的大模型量化技术解析

  
本文围绕自然语言处置处罚(NLP)建模技术睁开,详细先容了NER、语言模型、传统呆板学习与深度学习技术、学习策略等内容,展示了 NLP 建模技术的应用和发展趋势。

  

  •          命名实体识别(NER):从文本中找出并分类命名实体,如人名、组织名等。使用spacy库可识别英文句子中的实体。在新闻资讯、知识图谱构建等领域应用广泛。
  •          语言模型:预测单词序列中接下来大概出现的单词的统计模型。传统语言模型如一元、二元或三元模型,依据单词概率或前序单词预测;神经网络语言模型使用RNNs或Transformer架构,以BERT为代表,能捕捉复杂模式和依赖关系。
  •          传统呆板学习与深度学习在NLP中的技术碰撞

    •                传统呆板学习技术:逻辑回归用于情感分析等;淳厚贝叶斯基于独立性假设分类;决策树通太过割数据集分类;LDA用于主题建模;HMM用于词性标注。
    •                深度学习技术:自注意力机制等技术应用广泛,Transformer依附自注意力机制,提升训练速度和推理服从,催生了诸多强大模型。
       
  •          现代NLP中的重要学习策略:迁徙学习使用预训练模型淘汰训练本钱;微调针对特定任务调整预训练模型;零样本学习使模型执行未训练任务;少样本学习让模型从少量示例学习,淘汰对大量标注数据的依赖。
  
  
3、 LLM大模型架构之词嵌入(Part1)
3、 LLM大模型架构之词嵌入(Part2)
3、 LLM大模型架构之词嵌入(Part3)
以上三部门先容了词嵌入的各种方法

  
  
4、 LLM架构从基础到醒目之 Word2Vec 训练全解析
本文围绕自然语言处置处罚技术Word2Vec睁开,详细先容了其训练过程、架构、应用及优化方法,资助读者深入理解这一技术。

  

  •          Word2Vec基本概念:是自然语言处置处罚中关键技术,能将单词转化为向量,便于盘算机理解文本。
  •          训练过程与架构:本质是单隐蔽层神经网络,训练时调整权重降低丧失函数值,训练后取隐蔽层权重作为词向量。输入单词需转换为one - hot向量,隐蔽层是全毗连层,其权重即词向量,输出层用softmax激活函数输出目标单词概率分布。
  •          语义和句法关系处置处罚:相似上下文的单词会生成相似词向量,通过向量算术可重现语义和句法模式,如“Man - Woman = Brother - Sister”。
  •          训练算法

    •                分层softmax:用哈夫曼树近似条件对数似然,淘汰盘算量,对不常见单词效果好,但训练轮数增加时作用减弱。
    •                负采样:仅对目标单词和N个负实例采样,忽略one - hot标签中的大部门‘0’,负样本按一元分布选择,频率越高越大概被选。
       
  •          实用方法

    •                模型架构选择:Skip - gram在大型语料库和高维向量模型中准确性高,CBOW盘算本钱低且准确性相近。
    •                子采样:对高频单词举行子采样,可进步训练速度和性能,常见单词对或短语可视为单个“单词”。
    •                维度设置:词向量质量随维度增加提升,但凌驾肯定阈值边际收益淘汰,一般维度设为100 - 1000。
    •                上下文窗口调整:Skip - gram推荐窗口大小为10,CBOW为5。
       
  
  
5、 LLM架构从基础到醒目之循环神经网络(RNN)
这篇文章围绕循环神经网络(RNN)睁开,从神经网络基础讲起,深入探讨RNN及其相关内容,主要涵盖以下要点:

  

  •          神经网络基础:神经网络受大脑运作模式开导,由众多节点构成,在呆板学习尤其是深度学习中作用关键。其学习过程包罗前向流传、丧失函数盘算和反向流传,涉及Epochs、Batch Size和Iterations等重要概念。神经网络范例多样,如浅层、深层神经网络等。
  •          循环神经网络(RNNs)

    •                界说与应用场景:RNN专门用于处置处罚次序数据,能通过内部状态保存之前输入的信息,在处置处罚时间序列数据、语言建模等任务时上风显着。
    •                次序数据概念:次序数据的次序影响其含义,如文本句子、时间序列数据和语音信号等。
    •                与前馈神经网络对比:前馈神经网络数据单向流动,处置处罚次序数据有范围;RNN通过反馈回路传递信号,能更利益理次序数据。
    •                架构:由输入层、隐蔽层和输出层构成,可看作多个前馈神经网络在时间上的链式执行。关键使用包罗前向流传、反向流传时间(BPTT)和权重更新。
    •                训练挑战:存在梯度消失和梯度爆炸问题,主要由激活函数特性和初始权重设置不妥引起,可通过观察梯度大小判断是否出现问题。
    •                解决方法:可接纳适当的权重初始化,如Xavier初始化;使用非饱和激活函数,如ReLU及其变体(LReLU、PReLU、ELU、SELU )等。
       
  •          从头构建RNN:通过界说RNN类、早停机制类、RNN训练器类、数据加载和预处置处罚类,完备展示了使用Air passenger数据集训练RNN举行时间序列预测的过程。
  
  
6、 全网最全的LLM架构讲解||LSTM原理

  
本文围绕长短期记忆网络(LSTM)睁开,从原理、架构、工作流程、架构范例到Python实现与训练,举行了全面深入的先容。

  

  •          LSTM简介:属于RNN家族,能学习长期依赖关系,通过创建短期和长期记忆路径,解决传统RNNs均衡长短时上下文困难的问题,信息经细胞状态流动,依靠加法和乘法运算管理数据。
  •          LSTM架构:与RNNs链状布局相似,但重复模块有四个紧密相连的功能,包罗Sigmoid、Tanh激活函数、逐点乘法和逐点加法。门控机制是关键,由忘记门、输入门和输出门构成,决定信息的保存、更新和输出。
  •          LSTM工作流程:先由忘记门确定前一细胞状态保存或丢弃的信息,再通过输入门决定当前细胞状态存储的信息,末了输出门基于细胞状态决定输出信息,整个过程在每个模块重复。
  •          LSTM架构范例:先容了五种常用架构。Vanilla LSTM是基本架构;Stacked LSTM由多个LSTM层堆叠;CNN LSTM结合CNN和LSTM;Encoder - Decoder LSTM用于序列到序列问题;Bidirectional LSTM适用于序列分类问题。
  •          Python从零构建LSTM:详细给出在Python中构建LSTM的步调,包罗导入库和自界说类,如WeightInitializer、PlotManager和EarlyStopping,以及LSTM类的初始化、前向流传、反向流传、参数更新方法,还有训练器类LSTMTrainer的使用示例,并夸大训练中参数设置和监控的重要性。
  
7、 LLM架构从基础到醒目之门控循环单位(GRUs)
本文围绕门控循环单位(GRUs)睁开,涵盖从基础概念到实践应用等多方面内容,是关于GRUs的深度技术科普文章。

  

  •          GRUs基础:由Cho等人在2014年提出,目的是解决尺度RNN的梯度消失问题。它和LSTM类似,使用门控机制管理记忆,不同在于将输入门和忘记门归并为更新门,还增加了重置门,简化告终构。
  •          与其他网络比力:普通RNN传递信息时存在梯度消失问题,难以学习长期依赖关系;LSTM用输入门、忘记门和输出门解决了该问题,能处置处罚复杂上下文;GRUs是LSTM的简化版,盘算强度低、训练速度快,同时也能处置处罚长期依赖关系。
  •          门的功能:更新门决定过往信息传递量,重置门决定忽略过往信息的水平。在现实应用场景,如分析客户评价时,它们会根据环境调整,让模型关注关键信息。
  •          代码实现:通过Python代码实现了一个简单的GRU类,包罗前向流传、反向流传以及参数更新的方法,展示了GRU架构的焦点机制。
  •          优缺点与选择:优点是在序列数据建模、处置处罚可变长度输入上表现精彩,盘算服从高且能缓解梯度消失;范围在于处置处罚极长复杂序列时不如LSTM,表达能力相对较弱。资源有限、追求简单模型或处置处罚短序列时得当用GRUs;需要捕捉长期依赖关系、精细内存控制或处置处罚复杂序列时,LSTMs更符合,现实应用中最好通过实行确定。
  •          总结:全面回顾了RNNs相关知识,夸大GRUs是处置处罚序列数据的有力工具,理解其架构和原理对应用至关重要,选择GRUs照旧LSTMs要综合多方面因素考量。
  
  
8、 深入探究编码器 - 解码器架构:从RNN到Transformer的自然语言处置处罚模型

  
文章围绕编码器 - 解码器架构睁开,深入探讨其在自然语言处置处罚领域的应用,详细先容架构原理、训练方式、优缺点及改进方法,并枚举了现实应用案例。

  

  •          编码器 - 解码器架构概述:用于解决Seq2Seq问题,处置处罚次序数据。编码器将输入序列编码为上下文向量,解码器使用该向量生成输出序列。以神经呆板翻译为例,输入英语句子,输出法语翻译。
  •          架构内部机制:Seq2Seq模型基于RNN,常使用LSTM单位。编码器处置处罚输入序列,其最终内部状态作为上下文向量传递给解码器;解码器根据上下文向量和前一时刻输出,逐个生成目标序列单词。
  •          模型训练:训练前需对数据向量化,如独热编码。训练时,编码器工作方式稳定,解码器接纳教师强制技术,用真实输出作为下一时刻输入;测试时,解码器用上一时刻预测输出作为输入。
  •          架构缺点:存在与长度相关的缺点,如记忆能力有限,处置处罚长序列时会增加模糊性;训练长序列时易出现梯度消失问题。
  •          架构改进:添加嵌入层,学习单词故意义表示;使用深度LSTM,结合相关技术缓解梯度消失问题;反转输入序列,在部门呆板翻译任务中可提升性能。
  •          示例及应用场景:可结合CNN、RNN、LSTM等网络解决不同问题,如用于图像描述、呆板翻译。在Transformer模型、Make - a - Video、呆板翻译、图像描述等领域均有应用。
  
  
9、 2w8000字深度解析从RNN到Transformer:构建NLP应用的架构演进之路

  
这篇文章围绕大型语言模型(LLM)和Transformer睁开,深度解析了从传统模型到Transformer的架构演进,以及LLM的构建、训练、推理和优化等内容。

  

  •          LLM概述:LLM运用深度学习和海量数据实现语言理解与生成,基于Transformer架构,具有注意力机制和自回归文本生成能力。构建和训练需收集处置处罚大量数据,设计特定架构,使用盘算能力和算法训练并不断扩展。大型语言模型使用(LLMOps)专注于其生产环境摆设、监控和维护。
  •          前Transformer期间模型: 早期模型如多层感知机(MLPs)不得当序列建模;循环神经网络(RNNs)虽能处置处罚序列数据,但存在长期依赖问题和训练速度慢的缺陷;长短期记忆网络(LSTM)肯定水平改善了信息传递问题,但长句处置处罚仍有范围;卷积神经网络(CNNs)具有并行性和局部依赖捕捉能力,但处置处罚长距离依赖关系不佳。注意力机制肯定水平解决了部门问题,但仍存在次序训练等缺陷。
  •          Transformer架构:为解决序列转换问题而生,焦点是自注意力机制,能捕捉长距离依赖关系。由编码器、解码器构成,包罗嵌入、多头自注意力、前馈神经网络等组件,各组件协同工作,将输入序列转换为输出序列。
  •          LLM架构范例:Seq-2-Seq模型(编码器 - 解码器)适用于呆板翻译、文本择要;主动编码模型(仅编码器)专注于语言理解;自回归模型(仅解码器)善于文本生成;专家混合(MoE)通过子模型和门控网络提升服从和多样性。
  •          推理及优化:推理是用训练好的模型举行预测,解码器在训练和推理时工作方式不同。推理技术有贪婪搜刮和束搜刮。同时,Transformer推理面临内存和盘算需求大、延迟高、批量大小与性能均衡难等挑战,可通过量化、键值(KV)缓存、推测解码、批处置处罚、硬件优化、FlashAttention等技术优化。
  •          其他要点:对推理性能举行基准测试可评估优化效果。将来趋势包罗内存优化、注意力机制优化、并行性提升和推测推理应用。处置处罚大型数据集需高效的数据加载和预处置处罚、分布式训练等策略。
  
  
10、 3w字 使用pytorch实现Transformer

  
文章围绕Transformer架构睁开,详细先容其理论、构建过程、训练方法及相关知识,旨在资助读者深入理解并掌握Transformer模型。

  

  •          Transformer架构概述:2017年谷歌提出的Transformer架构引发了呆板学习领域的厘革,其依附并行处置处罚能力在自然语言处置处罚任务中表现精彩,并为后续模型奠基基础。
  •          Transformer架构解析:训练时,输入序列经嵌入、编码等处置处罚,解码器结合编码器输出生成目标序列,通过丧失函数和反向流传训练模型。其主要由编码器和解码器构成,包罗多头注意力机制、前馈网络等模块,各模块协同工作。
  •          从头构建Transformer模型:使用PyTorch构建模型,涵盖输入嵌入、位置编码等多个组件。同时,先容分词器、数据集加载、验证循环和训练循环等内容,完成模型的搭建与训练准备。
  •          丧失函数:常用丧失函数包罗交叉熵丧失,可通过标签平滑优化。别的,还有标记级丧失和序列级丧失,适用于不同任务。
  •          知识问答:针对Transformer架构的关键知识点设置问答,涵盖自注意力机制、位置编码等多方面,加深读者对架构的理解。
  
  
11. 全网最全的神经网络数学原理(代码和公式)直观表明 ,全网最全,没有之一

  
文章主要对神经网络背后的数学原理举行了直观表明,通过理论讲解、公式推导和Python代码示例,深入剖析了神经网络在分类和回归问题中的应用及原理。

  

  •          神经网络基础概念:神经网络能学习复杂数据模式,本文接纳可视化方式解读。单层神经网络包罗输入层和输出层,输入层仅传递数据。感知器是首个神经网络,用于二元分类,其输出层盘算输入特征加权和,通过阶跃函数激活。
  •          分类问题中的神经网络

    •                单层网络:感知器决策界限是直线,垂直于权重向量。Sigmoid神经元将激活函数换为Sigmoid函数,可输出预测概率,其决策界限同样是直线。增加特征后,决策界限在3D空间为平面,更高维则是超平面,感知器和Sigmoid神经元都属于线性分类器。
    •                多类分类:多类分类需softmax层,它是Sigmoid函数的泛化。以有2个特征、3个标签的数据集为例,softmax创建多个决策界限,每个都是直线,垂直于特定向量,推广到高维,决策界限是超平面。
    •                多层网络:非线性可分数据集用单层网络效果差,多层网络隐蔽层可将原始数据集转化为线性可分数据。如含ReLU激活函数的隐蔽层,可将二维非线性可分数据转化为三维线性可分数据,输出层再举行分类。非线性激活函数对隐蔽层至关重要,用线性激活函数无法使隐蔽层有用转换数据集。
       
  •          回归问题中的神经网络

    •                单层网络:单层神经网络若输出层为线性激活函数,使用均方偏差本钱函数时,行为类似线性回归模型。
    •                多层网络:要学习非线性数据集,需在隐蔽层添加非线性激活函数,如ReLU。通用近似定理表明,含足够神经元隐蔽层和符合激活函数的前馈神经网络可迫近任何连续函数,增加隐蔽层神经元数量能进步迫近能力。
       
  
  
12. 20000字的注意力机制讲解,全网最全

  
这篇文章围绕注意力机制睁开,详细先容其在深度学习模型中的应用,涵盖自然语言处置处罚和盘算机视觉领域,具体内容如下:

  

  •          引言:注意力机制在处置处罚长距离依赖任务中发挥关键作用,如NLP、呆板翻译和图像识别。它解决了传统Seq2Seq模型处置处罚长序列时上下文向量无法有用容纳信息的问题。
  •          注意力机制详解

    •                焦点思想:在解码器每个时间步创建新的上下文向量,使解码器能访问全部编码器隐蔽状态,专注输入序列相关部门,提升处置处罚长序列能力。
    •                工作原理:以seq2seq + 注意力模型为例,包罗准备隐蔽状态、获取分数、Softmax处置处罚、加权求和及输入解码器5个步调,训练和推理过程有所不同,依赖反向流传优化。
       
  •          模型中的注意力机制运作:模型先处置处罚输入生成隐蔽状态,再盘算注意力分数,经Softmax归一化后加权求和得到上下文向量,解码器使用其生成输出序列。
  •          注意力机制范例:先容Bahdanau、Luong、自注意力、多头注意力、交叉注意力等多种机制,以及谷歌神经呆板翻译(GNMT),并对比全局与局部、硬注意力与软注意力的差别。
  •          LSTM上的注意力机制:相关论文将注意力机制与LSTM结合用于呆板阅读任务,提升模型性能,与自注意力机制存在区别。
  •          评分函数:先容加法/拼接、点积等评分函数,点积运算衡量向量相似性,前馈神经网络用于学习对齐权重。
  •          盘算机视觉中的注意力机制:包罗空间、通道、自注意力等范例,应用于目标检测、图像描述等任务,能提升模型性能。
  
  
13. 2w字解析量化技术,全网最全的大模型量化技术解析
这篇文章围绕呆板学习中的量化技术在大语言模型中的应用睁开,先容了量化的概念、上风、技术方法等内容。

  

  •          量化的上风与大语言模型的规模挑战

    •                上风:量化能降低内存占用、加快推理速度、淘汰能源消耗并提升摆设灵活性。
    •                挑战:现代大语言模型参数规模庞大,对内存要求高。不同位宽浮点格式各有优劣,淘汰位大小会引入近似偏差,需均衡偏差与内存、盘算速度的关系。
       
  •          量化基础

    •                数据格式:先容IEEE-754浮点尺度下的FP32、FP16、Bfloat16及INT8、INT4整数格式的构成与范围。
    •                量化过程与范例:量化过程包罗确定数值动态范围、选择缩放因子、映射为整数及存储缩放因子;量化范例有对称量化和非对称量化,各有特点与盘算方式。
    •                特定任务建议:自然语言处置处罚训练用BF16、推理用INT8;图像处置处罚训练用FP16,推理用INT8或INT4;Transformer模型注意力层可混合使用INT8和INT4。
    •                裁剪与校准:裁剪可处置处罚异常值,淘汰其对量化的影响;校准是选择最优范围,不同范例参数(权重和激活值)校准技术不同。
       
  •          量化技术

    •                训练后量化(PTQ):权重量化可选择对称或非对称量化;激活值量化有动态量化和静态量化两种方式,各有利弊,并给出PyTorch实现代码示例。4位量化有GPTQ、GGML和GGUF、AWQ等方法,分别先容其原理与上风。
    •                量化感知训练(QAT):在训练过程中引入伪量化,使模型适应量化厘革,能找到丧失曲面中的宽最小值,进步低精度下模型性能。
    •                BitNet:将量化集成到Transformer架构,使用1比特值表示权重,后发展为1.58比特量化,通过特定量化策略进步盘算服从。
       
  
  
14. Transformer :数学表明为什么缩放点积会导致更稳定的梯度

  
15. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
本文围绕25种RAG变体睁开,深入探讨其架构、组件、流程及代码实现,为LLM动态增强提供全面指引。

  

  •          RAG变体分类及先容:主流RAG框架分为本钱控制型、实时互动型、域专家范例、认知增强型、安全与合规范例。文中详细先容了25种RAG变体,如尺度RAG由检索和生成模块构成,能动态注入外部知识;CRAG增加迭代反馈循环,淘汰幻觉;Speculative RAG接纳双模型策略,提升速度和准确性。
  •          具体实现代码示例:针对每种变体给出关键代码示例,像尺度RAG的查询编码器、文档分割、索引检索、提示构造及生成的代码;CRAG置信度评分和反馈回路代码等,助读者理解其技术细节。
  •          各变体关键上风:每个变体都有独特上风,如Self - RAG可淘汰对外部资源依赖,提升模型自主性;自适应RAG能优化资源使用,提升性能;REFEED无需重新训练模型就能进步答复准确性。
  •          应用场景及价值:这些变体适用于智能问答、文档生成、多模态任务、翻译等领域,能提升模型性能和答复质量,为用户提供更优质服务体验。
  
16. 大模型进化史:从Transformer到DeepSeek-R1的AI厘革之路
这篇文章回顾了2017 - 2025年大语言模型的发展进程,先容关键模型、技术及影响,夸大发展推动人工智能走向更具包容性和影响力的将来。

  

  •          语言模型基础:语言模型旨在处置处罚、理解和生成类人语言,多数大语言模型自回归运行,依前文预测后文,按今生成文本,应用广泛。
  •          关键发展阶段

    •                Transformer革命(2017年):Transformer架构解决早期模型处置处罚长距离依赖和次序处置处罚难题,其自注意力、多头注意力等创新,为大规模高效语言模型奠基。
    •                预训练Transformer模型期间(2018 - 2020年):BERT双向训练提升语言理解能力;GPT系列专注生成,通过自回归预训练和微调,在多任务表现精彩,GPT-3展示规模效应。
    •                训练后对齐(2021 - 2022年):为解决大语言模型“幻觉”等问题,开发SFT和RLHF技术。ChatGPT基于GPT-3.5,经对话数据微调与RLHF,推动对话式人工智能发展。
    •                多模态模型(2023 - 2024年):GPT-4V结合视觉与语言能力,GPT-4o整合多模态,在多行业引发厘革。同时,开源和开放权重模型鼓起,促进社区创新。
    •                推理模型(2024 - 2025年):2024年人工智能注重推理能力提升,OpenAI-o1通过思维链增强推理,在多领域表现优异。2025年DeepSeek-R1及其相关模型,以低训练本钱实现高性能推理,在多基准测试表现精彩,降低使用本钱,挑战行业格局。
       
  •          总结与展望:大语言模型发展进程中,Transformer架构、GPT-3、ChatGPT、DeepSeek-R1具有里程碑意义,推动人工智能朝着更具包容性和影响力的将来发展 。
  
  
17. LLMs的知识蒸馏:技术和应用
这篇文章围绕LLMs的知识蒸馏技术睁开,全面先容了其技术原理和应用,旨在资助读者深入理解并掌握这一重要技术,具体内容如下:

  

  •          知识蒸馏的配景与界说:大规模呆板学习和深度学习模型虽性能强大,但摆设困难,知识蒸馏能将复杂模型知识提炼到较小模型,降服这些挑战。它是将知识从大型复杂模型转移到单个较小模型的过程,本质是模型压缩,随着深度学习发展受到广泛关注。
  •          知识蒸馏的关键要素

    •                知识范例:包罗基于相应、基于特征和基于关系的知识,分别偏重于教师模型的输出层、中间层和特征图之间的关系。
    •                训练方式:有离线蒸馏(使用预训练教师模型指导学生模型)、在线蒸馏(教师和学生模型同时更新)和自蒸馏(教师和学生模型相同,用深层知识训练浅层)。
    •                师生架构:学生模型可以是教师模型的较浅版本、量化版本等,还可通过神经架构搜刮设计最佳学生模型架构。
    •                蒸馏算法:先容了对抗性蒸馏、多教师蒸馏、跨模态蒸馏等多种算法,以及基于图、注意力、无数据、量化、终身和基于神经架构搜刮的蒸馏算法。
       
  •          知识蒸馏的应用:在视觉、自然语言处置处罚和语音领域应用广泛。视觉领域用于图像分类、人脸识别等众多任务;自然语言处置处罚领域可获得轻量级模型,应用于神经呆板翻译、文本生成等场景,DistilBERT是典型案例;语音领域用于语音识别、口语识别等,如Amazon Alexa的声学建模。
  •          总结:知识蒸馏是训练高效轻量级模型的有用机制,基于多种知识、训练方案、架构和算法,在多个领域取得巨大成功。
  
  
18. 3W6000字相识大模型LLM:摆设、优化与框架
文章围绕大语言模型(LLM)的摆设、优化与框架睁开,全面先容了LLM服务相关知识,具体内容如下:

  

  •          LLM服务基础

    •                服务内容:包罗高效处置处罚、模型摆设、API创建和基础设施管理,旨在使LLM能实时相应查询。
    •                本地运行上风及条件:本地运行LLM具有隐私性和本钱上风,需具备开源LLM和在本地装备运行的推理能力。
       
  •          加载LLM的方法与框架

    •                多种框架对比:先容HuggingFace、LangChain、Llama.cpp等多种加载LLM的框架,分析各自优缺点及使用方法。
    •                分片与量化技术:分片将模型拆分成小块以淘汰VRAM需求;量化通过转换数据表示形式减小模型大小和内存需求,先容了Bitsandbytes、GPTQ、AWQ和GGUF等量化方法。
       
  •          推理优化策略

    •                理解推理过程:LLM推理分预填充阶段和解码阶段,哀求批处置处罚和连续批处置处罚可优化推理,但存在内存限定问题。
    •                优化技术:先容PagedAttention、KV缓存等优化技术,以及模型并行化(流水线并行、张量并行、序列并行)和注意力机制优化(多头注意力、多查询注意力等)方法。
       
  •          模型优化技术:包罗量化、希罕性和蒸馏。量化降低模型权重和激活值精度;希罕性将靠近0的值替换为0并用压缩形式表示矩阵;蒸馏把大模型知识转移到小模型中。
  •          模型服务技术

    •                正在举行的批处置处罚:大语言模型任务多样,导致批处置处罚困难,连续批处置处罚可进步GPU使用率。
    •                推测性推理:针对自回归模型按token生成文本的特点,通过“本钱较低”的过程生成草稿续写内容,再由验证模型并行验证,进步生成服从。
       
  •          服务指标与组件

    •                评估指标:使用首token生成时间、每个输出token的生成时间、延迟和吞吐量四个关键指标评估大语言模型服务。
    •                组件功能:引擎负责运行模型和哀求批处置处罚,服务器负责转发用户哀求,二者功能不同但相互共同。
       
  •          服务框架先容:先容vLLM、文本生成推理(TGI)、CTranslate2、DeepSpeed - MII、OpenLLM、Ray Serve、MLC LLM等框架,对比其用法、特色功能、上风和范围性,为不同需求提供选择参考。
  •          结论与建议:内存管理对LLM性能至关重要,不同框架在不同方面各有优劣。根据追求速度、HuggingFace支持、CPU推理、使用适配器等不同需求,可选择相应的框架。
  
  
19. 2W8000字揭秘RAG:从基础到高级的逆袭,彻底重塑大模型!
文章围绕检索增强生成(RAG)技术睁开,全面且深入地先容了从基础概念到高级技术、应用场景以及性能评估等多方面的内容,具体如下:

  

  •          RAG增强技术分类:涵盖基础RAG、高级RAG和模块化RAG三种范式,其基本流程包罗索引构建、检索和生成三个关键步调。
  •          基础RAG的问题:在索引构建、检索、生成三个环节均存在问题,如信息提取不完备、召回率低、大语言模型生成错误等,有很大的优化提升空间。
  •          高级RAG

    •                关键特征:接纳先进检索算法、增强检索数据整合、具备迭代优化能力和反馈循环学习机制。
    •                优化阶段:检索前优化聚焦数据索引和查询处置处罚;检索优化围绕嵌入模型睁开,还包罗混合搜刮等技术;检索后优化通过提示压缩、重新排序和过滤等使用,提升文本生成质量。
       
  •          高级RAG技术

    •                检索前技术:先容PDF解析、上下文丰富、查询改写、语义分块、数据修改、查询路由等多种技术,每种技术都针对基础RAG的问题提出解决方案,如不同的PDF解析方法、多种查询改写算法等。
    •                检索技术:融合检索/混合搜刮结合传统与现代搜刮上风,借助逆序排名融合算法提升检索效果。
    •                检索后技术:提示压缩、重新排序、过滤、Self - RAG、校正检索增强生成(CRAG)、RAG融合等技术,从不同角度优化检索效果,进步生成内容的质量和相关性。
       
  •          生成技术:包罗增强和定制两方面。前者使用如“演示 - 搜刮 - 预测”等框架优化生成过程;后者通过参数知识引导等方法定制大语言模型输出。
  •          聊天引擎:构建RAG系统需考虑聊天逻辑,通过查询压缩技术处置处罚对话上下文,如ContextChatEngine和CondensePlusContextMode等实现方式。
  •          RAG中的智能体:智能体为大语言模型提供工具执行任务,OpenAI Assistants具备多种实用工具,多文档智能体方案可实现复杂的文档处置处罚功能,但存在速度较慢的问题。
  •          编码器和大语言模型微调:对Transformer编码器、排序器和大语言模型举行微调,可以提升检索质量和生成答案的能力,但要注意大概存在的问题,如使用小型合成数据集微调大概降低模型团体能力。
  •          评估:有多种评估RAG系统性能的框架,如Ragas、OpenAI的方法、LangChain的LangSmith等,通过答案相关性、忠实度等指标评估系统表现。
  
  
20. 3W4000字 大模型评估全解析:方法、指标与框架
这篇文章围绕大语言模型评估睁开,详细先容了评估方法、指标、框架等内容,旨在资助读者全面相识大语言模型评估体系,具体如下:

  

  •          评估的重要性与思路:大语言模型应用广泛,但如何评估其有用性至关重要。选择模型时,不能仅依赖提示工程,要根据是否有尺度答案、是否需主动化评估、有无时间限定等因素,选择符合的评估策略,如准确率、相似性指标、大语言模型评判器或人工评估等。
  •          基准测试与评估的差别:基准测试是尺度化测试,用预界说数据集和指标评估模型在特定任务上的表现,便于比力和量化效果;评估范围更广,除测试外还考虑模型现实适用性、公平性、可表明性等,常以基准测试为基础。
  •          大语言模型基准测试

    •                框架与能力评估:基准测试框架通过尺度化测试评估模型推理、理解等多种能力,涵盖推理和知识、语言理解、编码、对话等多个方面。
    •                主要基准测试:先容语言理解和问答、知识和推理、编码、对话和聊天呆板人等领域的常用基准测试,如TruthfulQA、MMLU、ARC、HumanEval、Chatbot Arena等。
    •                范围性:基准测试存在领域相关性差、生命周期短等问题,但可通过合成数据生成等方法降服。
       
  •          评估指标:评估指标根据任务需求对模型输出评分,优秀指标具有可量化、可靠、准确的特点。盘算指标分数的方法包罗统计评分器、基于模型的评分器,以及结合两者的评分器,不同方法各有优劣。
  •          评估基于大语言模型的应用:依据交互模式和预期答案范例选择评估指标,如知识寻求、文本关联、创造力等交互模式。评估前要先评估评估策略与人类判断的相关性,构建评估集时要保证数据集足够大且能代表生产环境数据。
  •          大语言模型评估框架:先容DeepEval等多种评估框架,此中DeepEval是开源框架,具有易“单位测试”、指标丰富、可自界说等特点,还先容了其在评估RAG相关指标及微调指标方面的应用。
  
  
21. 2W6000字 大模型焦点技术综述:微调、推理与优化指南
这篇文章围绕大语言模型睁开,涵盖模型基础概念、架构发展、训练优化、推理参数、提示工程以及模型优化技术等多方面内容。

  

  •          大语言模型基础:大语言模型(LLM)是基于Transformer架构的深度学习模型,在大量数据上预训练,能理解文本关系。语言模型学习文本语料库生成概率,预测后续单词,经历了从n - gram到神经语言模型的发展。
  •          架构发展:早期大语言模型多基于RNN及LSTM、GRU,但存在训练慢、梯度消失等问题。Transformer架构解决了这些问题,它接纳自注意力机制,可并行处置处罚,训练时间短,成为当前大语言模型的主流架构。
  •          训练与优化:预训练阶段在大量文本上自监督训练,盘算本钱高。数据并行训练技术如分布式数据并行(DDP)和全分片数据并行(FSDP)可解决内存问题。微调能让模型适应特定任务,迁徙学习、PEFT等多种技术可实现高效微调。
  •          推理参数:使用大语言模型推理时,可配置Top-k采样、温度参数、Top-P采样、最大长度、上下文提示等参数,控制输出的多样性、连贯性和长度。
  •          提示工程:提示工程是与大语言模型沟通的方法,通过构建提示引导模型行为。包罗少样本提示、思维链(CoT)提示、PAL、ReAct提示等,能提升模型在不同任务中的表现。
  •          模型优化技术:模型压缩方法有量化、蒸馏和剪枝。量化通过降低权重精度减小模型大小,有训练后量化和量化感知训练两种方式;蒸馏将教师模型知识转移到学生模型;剪枝通过修剪权重或毗连减小模型大小,分非布局化和布局化剪枝。
  
  
22. 1W8000 字 探秘 RAG 应用搜刮:从语义搜刮到评估指标的深度解析
本文围绕检索增强生成(RAG)应用步伐中的搜刮过程睁开探讨,涵盖搜刮上风、面临问题、搜刮范例、检索算法等多方面内容,夸大连续优化和全面评估的重要性。

  

  •          RAG应用中的搜刮概述:在RAG流程里,用户查询经分词和嵌入处置处罚后,从知识库提取相关文本块。以开发客户支持聊天呆板人为例,该方式能淘汰大语言模型处置处罚数据的时间和资源,支持数据库实时更新,提升回复质量和客户满意度。
  •          搜刮与检索的问题及优化

    •                存在问题:独特或高度特定的查询大概导致系统匹配不到完全相关的文本块,使大语言模型回复不抱负,降低用户满意度。
    •                预防策略:监测查询密度,若其漂移则扩充向量存储;关注排名指标评估系统性能;收集用户反馈,依此调整应用步伐。
    •                优化措施:构建阶段注重测试和评估,优化分块策略和检索性能;生产后阶段连续扩展知识库、优化分块策略、增强上下文理解。
       
  •          搜刮范例

    •                关键词搜刮:适用于用户明确搜刮内容,期望准确匹配的场景,无需向量数据库。
    •                向量搜刮:适用于用户搜刮目标不明确的环境,需向量数据库支持。
    •                混合搜刮:结合全文关键词搜刮和向量搜刮效果,并用交叉编码器模型重新排名,需要文档数据库和向量数据库。
       
  •          检索算法: 相似性搜刮常用余弦相似度等度量返回相似文档,最大边际相关性(MMR)则在检索时考虑文档间相似水平,使效果更具多样性。
  •          检索与重排:复杂搜刮任务中,先通过检索系统(如词汇搜刮或密集检索)获取候选文档,再用基于交叉编码器的重排器对其相关性评分排序,以提升搜刮效果。文中还先容了预训练双编码器和交叉编码器的使用。
  •          信息检索的评估:评估指标分在线指标(如点击率,反映用户交互环境)和离线指标(在摆设前测量,关注检索效果相关性)。离线指标又分无序敏感指标(如召回率@K )和有序敏感指标(如平均倒数排名、平均精度均值@K、归一化折损累计增益@K )。现实应用中可多个指标结合使用,提升评估准确性。
  本文由 mdnice 多平台发布

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

雁过留声

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表