ChatGPT大模型极简应用开辟-CH1-初识 GPT-4 和 ChatGPT

钜形不锈钢水箱 · 2025-1-20 03:02:17

1.1 LLM 概述

1.1.1 语言模型和NLP底子

GPT-4 和其他 GPT 模型是基于大量数据训练而成的大语言模型（large language model，LLM），它们能够以非常高的准确性识别和天生人类可读的文本。
GPT-4 和 ChatGPT 基于一种特定的神经网络架构，即 Transformer。 Transformer 就像阅读机一样，它关注句子或段落的差别部分，以理解其上下文并产生连贯的回答。此外，它还可以理解句子中的单词序次和上下文意思。这使 Transformer 在语言翻译、问题回答和文本天生等任务中非常有效。

NLP 是 AI 的一个子范畴，专注于使计算性能够处理惩罚、解释和天生人类语言。现代 NLP 解决方案基于 ML 算法。NLP 的目标是让计算性能够处理惩罚天然语言文本。这个目标涉及诸多任务

文本分类
主动翻译
问题回答
文本天生：给定输入文本（prompt提示词）天生连贯且相关的输出文本

LLM 是试图完成文本天生任务的一类 ML 模型。LLM 使计算机能够处理惩罚、解释和天生人类语言，从而提高人机交互效率。为了做到这一点，LLM 会分析大量文本数据或基于这些数据进行训练，从而学习句子中各词之间的模式和关系。
数据源

维基百科
Reddit
成千上万本书
甚至互联网本身

在给定输入文本的情况下，这个学习过程使得 LLM 能够预测最有大概出现的后续单词，从而天生对输入文本有意义的回应。
早期发展
始于简单的语言模型，如 n-gram 模型。n-gram 模型通过利用词频来根据前面的词预测句子中的下一个词，其预测结果是在训练文本中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的动手点，但是 n-gram 模型在理解上下文和语法方面仍需改进，因为它有时会天生不连贯的文本。
为了提高 n-gram 模型的性能，人们引入了更先进的学习算法，包罗循环神经网络（recurrent neural network，RNN）和是非期记忆（long short-term memory，LSTM）网络。这些模型能够学习更长的序列，并且能够更好地分析上下文，但它们在处理惩罚大量数据时的效率仍然欠佳。
1.1.2 Transformer及在LLM中的作用

Transformer 架构彻底改变了 NLP 范畴，这主要是因为它能够有效地解决之前的 NLP 模型（如 RNN）存在的一个关键问题：很难处理惩罚长文本序列并记住其上下文。换句话说，RNN 在处理惩罚长文本序列时容易忘记上下文（也就是臭名昭著的“灾难性忘记问题”），Transformer 则具备高效处理惩罚和编码上下文的能力。
这场革命的核心支柱是注意力机制，这是一个简单而又强盛的机制。模型不再将文本序列中的所有词视为同等重要，而是在任务的每个步调中关注最相关的词。交叉注意力和自注意力是基于注意力机制的两个架构模块，它们经常出现在 LLM 中。Transformer 架构广泛利用了交叉注意力模块和自注意力模块
交叉注意力有助于模型确定输入文本的差别部分与输出文本中下一个词的相关性。

自注意力机制是指模型能够关注其输入文本的差别部分。具体到 NLP 范畴，自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系，并根据输入文本中的多个词构建新概念。

与 RNN 差别，Transformer 架构具有易于并行化的上风。这意味着Transformer 架构可以同时处理惩罚输入文本的多个部分，而无须序次处理惩罚。如许做可以提高计算速度和训练速度。
Transformer 架构由来自谷歌公司的 Ashish Vaswani 等人在 2017 年的论文“Attention Is All You Need”中提出，最初用于序列到序列的任务，如呆板翻译任务。尺度的 Transformer 架构有两个主要组件：编码器和解码器，两者都非常依赖注意力机制。
编码器的任务是处理惩罚输入文本，识别有价值的特性，并天生有意义的文本表示，称为嵌入（embedding）。
解码器利用这个嵌入来天生一个输出，好比翻译结果或择要文本。这个输出有效地解释了编码信息。
天生式预训练 Transformer（Generative Pre-trained Transformer，GPT）是一类基于 Transformer 架构的模型，专门利用原始架构中的解码器部分。
在 GPT 中，不存在编码器，因此无须通过交叉注意力机制来整合编码器产生的嵌入，GPT 仅依赖解码器内部的自注意力机制来天生上下文感知的表示和预测结果。

1.1.3 解密 GPT 模型的标记化和预测步调

GPT 模型接收一段提示词作为输入，然后天生一段文本作为输出，这个过程被称为文本补全，这主要是一个概率问题。
当 GPT 模型收到一段提示词之后，它首先将输入拆分成标记（token）。这些标记代表单词、单词的一部分、空格或标点符号。好比，在前面的例子中，提示词可以被拆分成［The, wea, ther, is, nice, today, so,I, de, ci, ded, to］。险些每个语言模型都配有本身的分词器。
理解标记与词长的一条经验法则是，对于英语文本，100 个标记大约即是 75 个单词。
为了天生新的句子，LLM 根据提示词的上下文预测最有大概出现的下一个标记。OpenAI 开辟了两个版本的 GPT-4，上下文窗口巨细分别为 8192 个标记和 32 768 个标记。
带有注意力机制的Transformer 架构使得 LLM 能够将上下文作为一个整体来思量。基于这个上下文，**模型为每个潜在的后续标记分配一个概率分数，然后选择概率最高的标记作为序列中的下一个标记。**在前面的例子中，“今天气候很好，所以我决定”之后，下一个最佳标记大概是“去”。
接下来重复此过程，但现在上下文变为“今天气候很好，所以我决定去”，之前预测的标记“去”被添加到原始提示词中。这个过程会不停重复，直到形成一个完整的句子：“今天气候很好，所以我决定去散步。”这个过程依赖于 LLM 学习从大量文本数据中预测下一个最有大概出现的单词的能力。

1.2 GPT 模型简史：从 GPT-1 到 GPT-4

1.2.1 GPT1

2018 Improving Language Understanding by Generative Pre-Training
早期必要有大量标记良好的监视数据。这一需求限制了监视学习的性能，因为要天生如许的数据集，难度很大且成本高昂。
在论文中，GPT-1 的作者提出了一种新的学习过程，其中引入了无监视的预训练步调。这个预训练步调不必要标记数据。相反，他们训练模型来预测下一个标记。
对于预训练，GPT-1 模型利用了 BookCorpus 数据集。该数据集包含约 11 000 本未出书图书的文本。BookCorpus 最初由Yukun Zhu 等人在 2015 年的论文“Aligning Books and Movies:Towards Story-like Visual Explanations by Watching Movies andReading Books”中给出，并通过多伦多大学的网页提供。然而，原始数据集的正式版本现在已不能公开访问。
人们发现，GPT-1 在各种基本的文本补全任务中是有效的。在无监视学习阶段，该模型学习 BookCorpus 数据集并预测文本中的下一个词。**然而，GPT-1 是小模型，它无法在不经过微调的情况下执行复杂任务。因此，人们将微调作为第二个监视学习步调，让模型在一小部分手动标记的数据上进行微调，从而顺应特定的目标任务。**好比，在情感分析平分类任务中，大概必要在一小部分手动标记的文本示例上重新训练模型，以使其达到不错的准确度。
尽管规模相对较小，但 GPT-1 在仅用少量手动标记的数据进行微调后，能够出色地完成多个 NLP 任务。GPT-1 的架构包罗一个解码器（与原始Transformer 架构中的解码器类似），具有 1.17 亿个参数。作为首个GPT 模型，它为更强盛的模型铺平了道路。
1.2.2 GPT2

2019 ，OpenAI 提出了 GPT-2。
这是 GPT-1 的一个扩展版本，其参数目和训练数据集的规模大约是 GPT-1 的 10 倍。这个新版本的参数目为15 亿，训练文本为 40 GB。GPT-2 表明，利用更大的数据集训练更大的语言模型可以提高语言模型的任务处理惩罚能力，并使其在许多任务中超越已有模型。它还表明，更大的语言模型能够更好地处理惩罚天然语言。
1.2.3 GPT-3

2020 年 6 月，OpenAI 发布了 GPT-3。
GPT-2 和 GPT-3 之间的主要区别在于模型的巨细和用于训练的数据量。GPT-3 比 GPT-2 大得多，它有1750 亿个参数，这使其能够捕捉更复杂的模式。
GPT3的数据集：

Common Crawl（它就像互联网档案馆，其中包含来自数十亿个网页的文本）
维基百科
网站、书籍和文章的内容

能力：

它在文本天生方面还展示出更强的连贯性和创造力。
它甚至能够编写代码片段，如 SQL 查询，并执行其他智能任务。
GPT-3 取消了微调步调，而这在之前的 GPT 模型中是必须的。

问题：

GPT-3 存在一个问题，即终极用户提供的任务与模型在训练过程中所见到的任务不一致
训练过程不一定与终极用户希望模型执行的任务一致
增大语言模型的规模并不能从根本上使其更好地遵循用户的意图或指令
用于训练模型的数据仍然大概包含虚假信息或有问题的文本，好比涉及种族歧视、性别歧
模型有时大概说错话，甚至说出有害的话

2021年，OpenAI 发布了 GPT-3 模型的新版本，并取名为 InstructGPT。
与原始的 GPT-3 底子模型差别，InstructGPT 模型通过强化学习和人类反馈进行优化。这意味着 InstructGPT 模型利用反馈来学习和不断改进。这使得模型能够从人类指令中学习，同时使其真实性更大、伤害性更小。
利用尺度的 GPT-3模型也能够得到所需的回答，但必要应用特定的提示词筹划和优化技能。这种技能被称为提示工程（prompt engineering）
1.2.4 从 GPT-3 到 InstructGPT

instructGPT Training Language Models to Follow Instructions with Human Feedback
从 GPT-3 模型到 InstructGPT 模型的训练过程主要有两个阶段：

监视微调（supervised fine-tuning，SFT）
通过人类反馈进行强化学习（reinforcement learning from human feedback，RLHF）

每个阶段都会针对前一阶段的结果进行微调，SFT 阶段接收 GPT-3 模型并返回一个新模型。RLHF 阶段接收该模型并返回 InstructGPT 版本。
在 SFT 阶段中，原始的 GPT-3 模型通过监视学习进行微调。OpenAI 拥有一系列由终极用户创建的提示词。

首先，从可用的提示词数据会合随机抽样
然后，要求一个人（称为标注员）编写一个示例来演示理想的回答。重复这个过程数千次，以获得一个由提示词和相应的理想回答组成的监视训练数据集。
最后，利用该数据集微调 GPT-3 模型，以针对用户的提问提供更一致的回答。此时得到的模型称为 SFT 模型

图 1-6：获取 InstructGPT 模型的步调
RLHF 阶段分为两个子步调：

首先训练嘉奖模型
- 嘉奖模型的目标是主动为回答给出分数。
  - 当回答与提示词中的内容匹配时，嘉奖分数应该很高；
  - 当回答与提示词中的内容不匹配时，嘉奖分数应该很低；
- OpenAI 首先随机选择一个问题，并利用 SFT模型天生几个大概的答案。通过一个叫作温度（temperature）的参数，可以针对同一输入天生许多回答。
- 要求标注员根据与提示词的匹配程度和有害程度等尺度给这些回答排序。在多次重复此过程后，利用数据集微调 SFT 模型以进行评分。
然后利用嘉奖模型进行强化学习
- 迭代的过程。它从一个初始的天生式模型开始，好比 SFT 模型；
- 根据得到的嘉奖分数，相应地更新天生式模型。这个过程可以在无须人工干预的情况下重复无数次，从而主动、高效地提高模型的性能；

1.2.5 GPT-3.5、Codex 和 ChatGPT

2022 年 3 月，OpenAI 发布了 GPT-3 的新版本。新模型可以编辑文本或向文本中插入内容。（训练数据截至 2021 年 6 月）。2022 年 11 月底，OpenAI 正式称这些模型为GPT-3.5 模型。
OpenAI 还提出了 Codex 模型，这是一个在数十亿行代码上进行了微调的GPT-3 模型。Codex 模型在 2023 年 3 月被OpenAI 弃用。GitHub 发布了基于 GPT-4 的 Copilot X 版本，功能比之前的版本多得多。
可以说，ChatGPT 是由 LLM 驱动的应用程序，而不是真正的LLM。ChatGPT 背后的 LLM 是 GPT-3.5 Turbo。然而，OpenAI 在发布说明中将 ChatGPT 称为“模型”。
ChatGPT 是由 LLM 驱动的应用程序，而不是真正的LLM。ChatGPT 背后的 LLM 是 GPT-3.5 Turbo。然而，OpenAI 在发布说明中将 ChatGPT 称为“模型”。
1.2.6 GPT-4

2023 年 3 月，OpenAI 发布了 GPT-4。与 OpenAI GPT 眷属中的其他模型差别，GPT-4 是第一个能够同时接收文本和图像的多模态模型。这意味着 GPT-4 在天生输出句子时会思量图像和文本的上下文。

1.3 LLM 用例和示例产品

1.3.1 Be My Eyes

自 2012 年起，Be My Eyes 已通过技能为数百万视障人士提供了帮助。它的应用程序是志愿者与必要帮助的视障人士之间的纽带，使视障人士在日常生存中得到帮助，好比识别产品或在机场导航。只需在应用程序中点击一次，必要帮助的视障人士即可联系到一位志愿者，后者通过视频和麦克风提供帮助。GPT-4 的多模态能力使得它能够处理惩罚文本和图像。Be My Eyes 开始基于GPT-4 开辟新的虚拟志愿者。这个虚拟志愿者旨在达到与人类志愿者相称的理解水平和帮助能力。
1.3.2 摩根士丹利

作为财富管理范畴的领头羊，摩根士丹利拥有数十万页的知识和见解内容库，涵盖投资策略、市场研究与评论，以及分析师意见。这些海量信息分散在多个内部网站上，其文件格式主要是 PDF。这意味着顾问必须搜索大量文档才能找到他们想要的答案。可以想象，搜索过程既漫长又乏味。
由公司内部开辟的模型将驱动一个聊天呆板人，对财富管理内容进行全面搜索，并高效地解锁摩根士丹利积累的知识。通过这种方式，GPT-4 提供了一种更易利用的格式来分析所有相关信息。
1.3.3 可汗学院

Khanmigo 是由 GPT-4 驱动的新型 AI 助手。Khanmigo 可以为学生做很多事变，好比引导和鼓励他们，提问并帮助他们准备考试。Khanmigo 旨在成为对用户友好的聊天呆板人，帮助学生完成课堂作业。它不会直接给出答案，而会引导学生进行学习。除了帮助学生，Khanmigo 还可以帮助西席准备教案、完成行政任务和制作课本等。
1.3.4 多邻国

多邻国已经利用 GPT-4 为其产品添加了两个新功能：“脚色扮演”和“解释我的答案”。这两个功能在名为 Duolingo Max 的新订阅级别中可用。借助这两个功能，多邻国填补了理论知识和语言应用之间的鸿沟。多亏了LLM，多邻国让语言学习者能够沉浸在真实天下的场景中。

“脚色扮演”功能模仿与母语人士的对话，让用户能够在各种场景中训练语言技能。
“解释我的答案”功能针对语法错误提供个性化反馈，帮助用户更深入地理解语言结构。

1.3.5 Yabble

Yabble 是一家市场研究公司，它利用 AI 技能分析消耗者数据，为企业提供可用的见解。Yabble 的平台将原始的非结构化数据转化为可视化情势，使企业能够根据客户需求做出明智的决议。
1.3.6 Waymark

Waymark 提供了一个创作视频广告的平台。该平台利用 AI 技能帮助企业轻松创作高质量的视频，无须技能知识或昂贵的设备。
显著地改进了平台用户的脚本编写过程。这种由 GPT 驱动的增强功能使得平台能够在几秒内为用户天生定制脚本。用户能够更专注于他们的主要目标，因为他们无须花费太多时间编辑脚本，从而有更多的时间来创作视频广告
1.3.7 Inworld AI

Inworld AI 为开辟人员提供了一个平台，用于创建具有独特个性、多模态表达能力和上下文意识的 AI 脚色。Inworld AI 平台的主要应用范畴之一是视频游戏。
将GPT 与其他 ML 模型联合，该平台可以为 AI 脚色天生独特的个性、情感、记忆和行为。这个过程使游戏开辟人员能够专注于叙事和其他主题，而无须花费大量时间从头开始创建语言模型。
1.4 警惕 AI 幻觉：限制与思量

LLM 根据给定的输入提示词逐个预测下一个词（也就是标记），从而天生回答。在大多数情况下，模型的输出是与提问相关的，并且完全可用，但是在利用语言模型时必要小心，因为它们给出的回答大概不准确。这种回答通常被称为 AI 幻觉，即 AI 自信地给出一个回答，但是这个回答是错误的，大概涉及虚构的信息。

当要求它进行检查并重新计算时，它仍然给出了一个错误的答案
强烈推荐在创意型应用程序中利用纯 GPT 解决方案，而不是在医疗咨询工具等真相至关重要的问答类应用程序中利用。对于这类用例，插件大概是理想的解决方案。
1.5 利用插件和微调优化 GPT 模型

除了简单的文本补全功能，还可以利用更高级的技能来进一步利用 GPT 模型的能力:

插件
微调

局限性：
GPT 模型有一定的局限性，例如其计算能力有限。正如你所见，GPT 模型可以精确回答简单的数学问题，如 2 + 2 即是多少，但在面对更复杂的计算时大概会遇到困难，如 3695 × 123 548。此外，它没有直接访问互联网的权限，这意味着 GPT 模型无法获取新信息，其知识仅限于训练数据。对于 GPT-4，最后一次知识更新是在 2021 年 9 月。截至 2023 年 11 月下旬，GPT-4 的训练知识已更新至 2023 年 4 月。
**OpenAI 提供的插件服务允许该模型与大概由第三方开辟的应用程序毗连。**这些插件使模型能够与开辟人员界说的应用程序接口（application program interface，API）进行交互。这个过程可以极大地增强 GPT 模型的能力，因为它们可以通过各种操作访问外部天下。
在其网站上，OpenAI 表示可以通过插件让 ChatGPT 执行以下操作：

检索实时信息，如体育赛事比分、股票价格、最新资讯等；
检索基于知识的信息，如公司文档、个人条记等；
代表用户执行操作，如预订航班、订购食品等；
准确地执行数学运算。

微调过程涉及利用特定的一组新数据重新训练现有的GPT 模型。新模型专为特定任务而筹划，这个额外的训练过程让模型能够调节其内部参数，以顺应给定的任务。经过微调的模型应该在该任务上表现得更好。好比，采用金融文本数据进行微调的模型应该能够更好地回应针对该范畴的查询并天生相关性更强的内容。
1.6 小结

从简单的 n-gram 模型发展到 RNN、LSTM，再到先进的 Transformer 架构，LLM 已经取得了长足的进步。LLM 是可以处理惩罚和天生人类语言的计算机程序，它利用 ML 技能来分析大量的文本数据。通过利用自注意力机制和交叉注意力机制，Transformer 极大地增强了模型的语言理解能力。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

ChatGPT大模型极简应用开辟-CH1-初识 GPT-4 和 ChatGPT

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云