常耀斌：深度学习和大模子原理与实战（深度好文）

怀念夏天 · 2024-12-19 23:43:32

目录
呆板学习
深度学习
Transformer大模子架构
人工神经元网络
卷积神经网络

深度学习是革命性的技术成果，有利推动了计算机视觉、自然语言处置惩罚、语音识别、强化学习和统计建模的快速发展。
深度学习在计算机视觉领域上，发展突飞猛进，尤其是图像分类中成绩斐然。2012年， Alex和Hinton在ImageNet大规模图像识别比赛ILSVRC中夺冠，以83.6%的Top5精度，超过传统的计算机视觉计算的74.2%，深度学习开始发力，卷积神经网络一战成名。2013年，ImageNet大规模图像识别比赛以88.8%成绩获得冠军。2014年，VGG网络战绩达到92.7%， GoogLeNet网络战绩达到93.3%。2015年，在1000类的图像识别中，微软提出的残差网（ResNet）以96.43%的Top5正确率，达到了超过人类的94.9%水平。
深度学习在图像检测方面上，聚焦在怎样把物体用矩形框准确圈起来。2014年以来，检测平均精度MAP经历了多次升级迭代，包括R-CNN的53.3%、Fast R-CNN的68.4%、Faster R-CNN的75.9%、 Faster RCNN结合残差网（Resnet-101）的83.8%精度、YOLO的52.7%、SSD的75.1%。
深度学习在自然语言处置惩罚技术上，发展远景广阔。技术架构包含了文本预处置惩罚和洗濯、词嵌入和表示学习、语法分析和句法树、命名实体识别、情感分析、呆板翻译以及问答体系等关键步骤。通过这些技术，计算机可以或许更好地理解和处置惩罚人类语言，为我们提供更智能化、便捷化的服务和体验。

深度学习在AI大模子的落地应用上，由“数据、算法、算力”演变为“场景、产品、算力”。从技术架构上看，Transformer架构是AI大模子领域主流的算法架构底子，形成了GPT和BERT两条重要的技术门路，此中BERT最著名的是谷歌的AlphaGo。在GPT3.0发布后，GPT渐渐成为大模子的主流门路。目前，几乎所有参数规模超过千亿的大型语言模子都接纳GPT模式，如百度文心一言，阿里通义千问等。从模态支持上看，AI大模子可分为自然语言处置惩罚大模子，CV大模子、科学计算大模子等。AI大模子支持的模态更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，渐渐发展为支持多种模态下的多种任务。从应用领域上看，大模子可分为通用大模子和行业大模子两种。通用大模子是具有强大泛化能力， ChatGPT、华为的盘古都是通用大模子。行业大模子则是使用行业知识对大模子进行微调，让AI完成“专业教诲”，以满足差别领域的需求，如金融领域的BloombergGPT、百度携手中国航天发布的大模子“航天-百度文心大模子”等。

呆板学习

呆板学习是一种人工智能技术，重要使用算法来让计算机从数据中学习，以便可以或许自动地进行决策和预测。呆板学习的目标是通过数据来提高预测或决策的准确性，而不需要人工干预。
深度学习

深度学习（Deep Learning，简称DL）是呆板学习的一种特定形式，它使用具有多层非线性处置惩罚单元的神经网络来学习和表示数据。深度学习的核心是使用深度神经网络，这些网络可以自动从数据中提取出复杂的特性，而且在各种任务上表现精彩，例如图像识别、语音识别和自然语言处置惩罚等。

卷积神经网络（Convolutional Neural Networks，CNN）：重要用于图像和视频相关的任务，通过局部连接和权值共享来提取空间特性。
递归神经网络（Recurrent Neural Networks，RNN）：可以或许处置惩罚序列数据，如自然语言处置惩罚和语音识别等任务。RNN可以或许使用已往的信息作为上下文来进行预测。
长短期记忆网络（Long Short-Term Memory，LSTM）：一种特殊的RNN变体，通过门控机制来解决传统RNN的梯度消失和梯度爆炸问题。
生成对抗网络（Generative Adversarial Networks，GAN）：由生成器和鉴别器组成，生成器试图生成逼真的样本，而鉴别器试图区分真实样本和生成样本，二者通过对抗学习进行优化。
留意力机制网络（Attention Mechanism）：可以或许在处置惩罚变长序列数据时，为模子赋予自主选择和关注重要信息的能力。

深度神经网络是一种条理化的模子，由多个神经网络层组成。每个神经网络层由多个神经元组成，每个神经元继承上一层的输入并进行线性变换和非线性激活，输出给下一层。深度神经网络的训练依赖于反向传播算法（Backpropagation），通过最小化损失函数来优化网络权重，使其可以或许更好地适应训练数据和测试数据。
Transformer大模子架构

Transformer是一种基于自留意力机制（Self-Attention）的序列到序列（Sequence-to-Sequence, Seq2Seq）模子，用于处置惩罚序列数据，如自然语言文本。Transformer模子由编码器和解码器组成，编码器将输入序列转换为上下文向量，解码器使用上下文向量生成输出序列。对于每个位置，Transformer模子通过计算输入序列中所有位置的加权和来计算上下文向量。这种加权和的权重由自留意力机制计算得出，自留意力机制可以捕捉输入序列中差别位置之间的依赖关系。
深度神经网络通常需要对输入数据进行预处置惩罚和特性提取，以便网络可以或许更好地学习数据的表示。而在Transformer中，输入数据被转换为多头留意力机制的查询、键和值，这些查询、键和值可以被用来计算自留意力权重。深度神经网络和Transformer都可以用于处置惩罚自然语言处置惩罚任务，它们的性能和适用场景有所差别。深度神经网络在处置惩罚文本分类、情感分析和命名实体识别等任务上表现精彩，而Transformer在呆板翻译、文本生成和阅读理解等任务上表现精彩。

呆板学习（Machine Learning，ML），是指从业务的汗青数据中学习大概抽取出数据规律，并使用数据规律对未知业务数据进行预测的方法，是人工智能的一个重要分支，传统的呆板学习重要聚焦在怎样学习一个预测模子。第一，将数据表示为一组特性（Feature），特性的表示形式可以是连续的数值、离散的符号或其他形式。第二，将这些特性输入到预测模子，并输出预测结果。呆板学习，重要靠人工履历或特性转换方法来抽取特性，使用呆板学习模子包含四步：

数据预处置惩罚：颠末数据的预处置惩罚，如去除噪声等。比如在文本分类中，抽取词条等。
特性提取：从原始数据中提取一些有效的特性。比如在图像分类中，提取边缘、标准、纹理等不变特性变换特性等。
特性工程：对特性进行一定的加工和处置惩罚，比如降维和升维。降维包括特性抽取和特性选择两种途径，常用的特性转换方法有主身分分析等。
目标预测：呆板学习的核心部分，就是学习一个方程，再进行预测。

监督学习(Supervised Learning)是呆板学习中的一种训练方式，是指使用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。监督学习是从标记的训练数据来推断一个功能的呆板学习任务。通俗讲，给定一个带“标签”的数据集，来训练网络，从而得到一个最优的模子。在无人驾驶应用，网络在差别路况下驾驶员行为，并进行打标签，进行模子训练，当新司机驾驶时，根据差别路况来指导驾驶员的行为，让训练模子能支持行为预测能力。监督学习重要解决两类问题：回归和分类。解决图像分类任务，用分类模子；解决预测类问题，用回归模子。
深度学习，其是从数据中自动学习到有效的特性表示。它通过多层的特性转换，把原始数据变成更高条理、更抽象的表示，目标是把这些学习到的表示可以替换人工设计的特性，从而避免“特性工程”。深度学习采用的模子重要是神经网络模子，其重要原因是神经网络模子可以使用误差反向传播算法，有效解决贡献颗粒问题。
人工神经元网络

人脑神经体系是一个非常复杂的组织，包含近百亿个神经元，每个神经元有上千个突触和其他神经元相连接．神经元分为细胞体和细胞突起，此中赫布理论指出：“当神经元A的一个轴突和神经元B很近，足以对它产生影响，而且连续地、重复地到场了对神经元B的高兴，那么在这两个神经元或此中之一会发生某种生长过程或新陈代谢变化，以致神经元A作为能使神经元B高兴的细胞之一，它的效能加强了。” 人工神经网络模仿人脑神经网络，用节点替换人工神经元，进行互相连接，差别节点之间的连接被赋予了差别的权重，每个权重代表了一个节点对另一个节点的影响巨细，每个节点代表一种特定函数。
人工神经元网络是由大量神经元连接而构成的自适应非线性体系，这个自适应就是不断调整权重到最优，使得网络的预测效果最佳。神经元的个数越多越好吗？实际上，有利有弊，可以分类大概预测复杂数据，但是容易造成过拟合，过拟合就是泛化能力不足，对非训练数据的噪声拟合能力弱。
在80年代，Fukushima在感受野概念的底子之上提出了神经认知机的概念，可以看作是卷积神经网络的第一个实现网络，神经认知机将一个视觉模式分解成许多子模式（特性），然后进入分层递阶式相连的特性平面进行处置惩罚，它试图将视觉体系模子化，使其可以或许在即使物体有位移或稍微变形的时候，也能完成识别。
卷积神经网络

卷积神经网络(Convolutional Neural Networks, CNN)是多层感知机的变种。由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来。视觉皮层的细胞存在一个复杂的构造。这些细胞对视觉输入空间的子地区非常敏感，我们称之为感受野，以这种方式平铺覆盖到整个视野地区。
CNN由纽约大学的Yann LeCun于1998年提出。CNN本质上是一个多层感知机，如下图1-2所示，其乐成的原因关键在于它所采用的“稀疏连接”和“权值共享”的方式，一方面减少了的权值的数目使得网络易于优化，另一方面降低了过拟合的风险。
目前的卷积神经网络一样平常是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络，使用反向传播算法进行训练，卷积神经网络有三个布局上的特性：局部连接，权重共享以及汇聚。这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性。和前馈神经网络相比，卷积神经网络的参数更少。卷积神经网络重要使用在图像和视频分析的各种任务上，比如图像分类、人脸识别、物体识别、图像分割等，其准确率一样平常也远远超出了其它的神经网络模子。

在人工智能自然语言处置惩罚领域，transformer是大语言模子的底子。Transformers最初是用于呆板翻译领域，但是如今已经渐渐代替了主流NLP中的RNNs。该架构采用了一种全新的表示学习方法，它完全扬弃了递归的方法，Transformers使用留意力机制构建每个词的特性，从而找出句子中所有其他单词对上述单词的重要性。如今大火ChatGPT中的 T 指的就是transformer。transformer基于自留意力机制，由编码器（encoder）和解码器（decoder）组成。它可以说是一个完全基于自留意力机制的模子，不依赖于CNN、RNN等模子，但可以做并行计算、相比LSTM更好地解决了长间隔依赖问题，综合了RNN和LSTM的优点。RNN可以并行计算，但无法解决长时依赖问题；LSTM在一定程度上能解决长间隔依赖问题，但太长的还是不行。在Sequence to Sequence呆板翻译任务中，一样平常采用的是基于CNN或RNN的encoder-decoder框架，在encoder和decoder之间使attention机制进行语义信息的连接，但这存在着一些问题。

论文《attention is all you need》提出的transformer做的就是这件事。它在呆板翻译任务上，遵照encoder-decoder框架，不使用CNN/RNN，完全使用attention机制来捕捉输入和输出序列之间的全局依赖，允许并行化，训练时间短，取得的翻译效果好。Transformer不但设计了多头自留意力机制（Multi-Head Self-Attentiom），而且结合了CNN、RNN的优点，一是CNN的多通道机制（从多个角度去提取数据特性）和并行计算能力；二是RNN理论上的长时依赖建模能力（捕捉长间隔的语义关联）。为了对序列的词序order进行建模，引入了位置编码position embedding。

本文摘自《深度学习和大模子原理与实战》 2024年发行

作者：常耀斌，王文惠

清华大学出版社-图书详情-《深度学习和大模子原理与实践》

京东：《深度学习和大模子原理与实践常耀斌王文惠人工智能前沿实践丛书大语言模子技术书清华大学出版社》【摘要书评试读】- 京东图书

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

常耀斌：深度学习和大模子原理与实战（深度好文）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云