ToB企服应用市场:ToB评测及商务社交产业平台

标题: 什么是大型语言模型 [打印本页]

作者: 光之使者    时间: 2024-12-20 00:19
标题: 什么是大型语言模型
大型语言模型简介

大型语言模型 (LLM) 是一种深度学习算法,可以利用非常大的数据集辨认、总结、翻译、推测和生成内容。
NVIDIA 开发者计划

想要相识有关 NIM 的更多信息?加入 NVIDIA 开发者计划,即可免费访问任何底子设施云、数据中央或个人工作站上最多 16 个 GPU 上的自托管 NVIDIA NIM 和微服务。
加入免费的 NVIDIA 开发者计划后,您可以随时通过 NVIDIA API 目次访问 NIM。要获得企业级安全性、支持和 API 稳定性,请选择通过我们的免费 90 天 NVIDIA AI Enterprise 试用版利用企业电子邮件地点访问 NIM 的选项。
什么是大型语言模型?

大型语言模型重要代表一类称为transformer网络的深度学习架构。transformer模型是一种神经网络,它通过跟踪顺序数据中的关系(例如本句中的单词)来学习上下文和含义。
transformer由多个transformer块(也称为层)组成。例如,transformer具有自注意力层、前馈层和规范化层,它们共同作用以解密输入以推测推理时的输出流。这些层可以堆叠在一起以形成更深的transformer和强盛的语言模型。谷歌在 2017 年的论文“注意力就是你所需要的统统”中首次介绍了transformer。

有两项关键创新使得 Transformer 特别得当用于大型语言模型:位置编码和自注意力。
位置编码嵌入了输入在给定序列中出现的顺序。本质上,由于位置编码,单词可以非顺序地输入神经网络,而不是按顺序将句子中的单词输入神经网络。
自注意力在处理输入数据的每个部分时为其分配权重。此权重表示该输入在上下文中相对于别的输入的重要性。换句话说,模型不再需要对所有输入投入雷同的注意力,而可以专注于输入中真正重要的部分。随着模型筛选和分析大量数据,神经网络需要关注输入的哪些部分的这种表示会随着时间的推移而学习。
这两种技术连合起来可以分析不同元素在长间隔上非顺序地相互影响和关联的微妙方式和配景。
非顺序处理数据的能力使得复杂问题能够分解为多个较小的同时盘算。自然,GPU 非常得当并行解决这些范例的问题,从而可以大规模处理大规模未标记数据集和巨大的transformer网络。
为什么大型语言模型很重要?

从历史上看,人工智能模型不停专注于感知和理解。
然而,大型语言模型是在具有数千亿个参数的互联网规模数据集上训练的,现在已经开释了人工智能模型生成类似人类内容的能力。
模型可以以可靠的方式阅读、编写、编码、绘制和创建,增能人类创造力并提高各行各业的生产力,以解决天下上最棘手的问题。
这些 LLM 的应用涵盖了大量用例。例如,人工智能系统可以学习蛋白质序列的语言,以提供可行的化合物,帮助科学家开发突破性的救命疫苗。
或者盘算机可以帮助人类做他们最擅长的事情——发挥创造力、沟通和创造。患有写作停滞的作家可以利用大型语言模型来激发他们的创造力。
或者软件程序员可以提高工作服从,利用 LLM 根据自然语言描述生成代码。
什么是大型语言模型示例?

整个盘算堆栈的进步使得开发越来越复杂的 LLM 成为大概。2020 年 6 月,OpenAI 发布了 GPT-3,这是一个拥有 1750 亿个参数的模型,可以利用简短的书面提示生成文本和代码。2021 年,NVIDIA 和 Microsoft 开发了 Megatron-Turing 自然语言生成 530B,这是天下上最大的阅读理解和自然语言推理模型之一,拥有 5300 亿个参数。
随着 LLM 规模的扩大,其能力也在不停增强。广义上讲,LLM 的文本内容用例可以按以下方式划分:

天下各地的企业开始利用 LLM 来解锁新的大概性:

大型语言模型仍处于早期阶段,其前景广阔;具有零样本学习能力的单个模型可以通过即时理解和生成类似人类的想法来解决险些所有可以想象到的问题。用例涵盖每个公司、每笔业务交易和每个行业,从而带来巨大的价值创造机会。
大型语言模型怎样工作?

大型语言模型利用无监督学习举行训练。通过无监督学习,模型可以利用未标记的数据集在数据中找到以前未知的模式。这也消除了对大量数据标记的需求,这是构建 AI 模型的最大挑衅之一。
由于 LLM 经历了广泛的训练过程,这些模型不需要针对任何特定使命举行训练,而是可以服务于多种用例。这些范例的模型被称为底子模型。
底子模型无需太多指导或训练即可为各种目的生成文本的能力称为零样本学习。这种能力的不同变体包罗一次性或少量学习,此中底子模型被输入一个或几个示例,说明怎样完成使命以理解和更好地实行选定的用例。
只管大型语言模型的零样本学习具有巨大的能力,但开发人员和企业天生就希望驯服这些系统以他们期望的方式运行。为了将这些大型语言模型摆设到特定用例,可以利用多种技术定制模型以实现更高的正确性。一些技术包罗快速调解、微调和适配器。

有几类大型语言模型适用于不同范例的用例:

大型语言模型的挑衅是什么?

开发和维护大型语言模型所需的大量资源投资、大型数据集、技术专业知识和大规模盘算底子设施不停是大多数企业的进入壁垒。

怎样开始利用大型语言模型?

NVIDIA 提供各种工具来简化大型语言模型的构建和摆设:

只管面对挑衅,但大型语言模型的前景是巨大的。 NVIDIA 及其生态系统致力于让消耗者、开发者和企业能够享受大型语言模型带来的好处。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4