论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
云原生
›
好书推荐《ChatGPT原理与架构:大模型的预训练、迁徙和 ...
好书推荐《ChatGPT原理与架构:大模型的预训练、迁徙和中心件编程 》 ...
西河刘卡车医
金牌会员
|
2024-6-13 21:16:58
|
显示全部楼层
|
阅读模式
楼主
主题
703
|
帖子
703
|
积分
2109
一本书讲透 ChatGPT,实现从理论到实践的跨越!大模型技能工程师必读
OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景,在多项专业和学术基准测试中表现出的智力水平,不光接近甚至偶然超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的接待,被科技界誉为人工智能领域的新里程碑。
人们在为天生式人工智能所带来的多模态内容创作效率的提升而欢呼时,常常低估 ChatGPT 的推理能力。这种能力使 ChatGPT 不光能作为新一代人机交互的焦点,还能作为智能代理来构建自动化和半自动化的工作流程,甚至使它能与工业控制或呆板人领域相结合,引发深刻的社会变革。
很多人低估了这种变革的影响力。以当前研发和商业应用的迭代速度来看,预计在未来三至五年内,这种变革将逐渐渗透到人类生活和生产的各个方面,极大地提升现有的生产力。若要追溯上一个被称为 “巨大技能变革” 的时代,很多人都会绝不犹豫地说是互联网开创期。这次变革也将重塑内容生产相关的商业模式,改变现有的工作方式,甚至推动生产方式的变革。当然,这还需要依赖下一代大语言模型在内容输出的可控性方面的突破。
内容简介
这是一本深入论述 ChatGPT 等大模型的工作原理、运行机制、架构计划和底层技能,以及预训练、迁徙、微调和中心件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和履历总结。
第 1 章介绍了 ChatGPT 等大模型的发展历程、技能演化和技能栈等基础知识;
第 2~5 章深入讲解了 Transformer 的架构原理,并从 GPT-1 的天生式预训练到 GPT-3 的稀疏注意力机制详细描述了 GPT 系列的架构演进;
第 6~8 章从底层技能实现的角度讲解了大模型的训练策略、数据处理方法,以及怎样利用策略优化和人类反馈来进一步提升模型的表现;
第 9~10 章首先详细讲解了大模型在垂直领域的低算力迁徙方法,并给出了医疗和司法领域的迁徙案例,然后讲解了大模型的中心件编程;
第 11 章对 GPT 的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大模型时代具身智能的可行门路。
作者简介
程戈
博士生导师,湘潭大学盘算机学院 · 网络空间安全学院教授,湘潭大学技能转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字管理湖南省重点实验室副主任,CCF 盘算法学会执委。
大模型领域技能专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业互助推动人工智能在司法领域的落地,领导团队开发了 JusticeGPT 司法大模型,不同于其他的以提升司法领域知识问答能力为焦点的司法大模型,该大模型致力于提升司法文献检索增强天生以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令天生框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。
连续创业者,先后建立湘潭安道致胜信息科技有限公司等多家企业,曾经作为共同创始人加盟美国 WiFi Free llc. ,开发了 WiFi Free、WiFi Analyzer? 等项目,此中 WiFi Free 在 2014 到 2015 年是 Google Play 市场相关 WiFi 分享类应用下载的前三名。作为技能顾问,先后服务于北京捷通华声等多家企业,提供知识表现学习的技能办理方案,为某知名私募开发了基于深度学习的股票趋势预测系统,成为该私募公司的主要量化工具。
专家推荐
作者结合科研和实践履历,用质朴无华的语言,踏实、严谨地剖析了 ChatGPT 的技能原理和大模型的关键技能。全书内容丰富翔实,图文并茂,任何想要真正理解 ChatGPT 的读者,都会从本书中获益匪浅,深刻了解这项里程碑式的技能效果。
—— 陈峰 北京滴普科技有限公司合伙人 &《ClickHouse 性能之巅》作者
创业不易,比较幸运的是,我在北大做研究时,和团队一起成功地开发了 ChatLaw——国内首个在法律领域应用的大模型。本书的作者和团队也成功训练出法律行业的大模型,这本书分享了他们的成功履历。如果你对类似 ChatGPT 大模型的训练感兴趣,那么本书将是你不容错过的力作。
—— 崔家熙 ChatLaw
本书不光能让你站在巨人的肩膀上俯瞰大语言模型的全貌,还领导你深入洞察其背后的原理与架构计划。不光是一本理论与实践并重的参考书,更是一部引领人工智能领域创新发展的启示录。它将为你展现大语言模型怎样改变我们的生活,并展示怎样在这一领域挖掘无限可能。
—— 黄剑 Google 工程师 / 抖音 “剑哥聊技能” 博主(仅代表个人观点,与任何公司无关)
本书系统地剖析了支撑 ChatGPT 的关键技能,包括 Transformer 模型、注意力机制、天生式预训练等理论基础,以及模型优化、低算力部署、人机交互等关键题目。全书内容丰富翔实,图文并茂,任何想要真正理解 ChatGPT 的读者都能从中获益。作者结合科研和实践履历,用平实的语言娓娓道来,让这个高深的主题变得触手可及。
—— 刘聪 南京云问科技首席算法架构师 / 知乎博主:@刘聪 NLP/《ChatGPT 原理与实践》作者
这是一本过细入微地剖析 ChatGPT 内在技能原理的佳作。内容严谨,结构清楚,层层深入地剖析了大语言模型背后的关键技能,如 Transformer、注意力机制、天生式预训练等。这是一本质量上乘的技能专著,它不光系统全面,而且深入浅出,将 ChatGPT 这一复杂系统娓娓道来,让读者获益匪浅。
—— 刘树春 阿里巴巴高级算法专家
对于任何渴望深入了解大语言模型的人来说,本书是一本无价之宝。它是进入大语言模型训练和微调天下的拍门砖,同时也是您在人工智能领域取得成就的助推器。通过本书,您将掌握大语言模型的工作原理、技能挑衅与发展趋势,从而为自己在人工智能时代的脚色定位提供有力支持。
—— 占冰强 AIGCLINK 发起人 / 行行 AI 合伙人
读者对象
人工智能领域的产品经理。对于希望在自财产品中引入 AI 功能的产品经理来说,了解 ChatGPT 等大语言模型的基本原理和运行机制是至关紧张的。从本书中,他们可以学习大语言模型的计划思想、构造方式,以及怎样将这些模型整合到产品中去。他们也可以借此更好地理解产品的性能瓶颈,从而进行更为准确的产品规划。
人工智能相关专业的研究人员。AI 研究者可以将本书作为一本深入了解大语言模型的教科书。无论是 Transformer 模型的细节,还是 GPT 模型训练和优化的技巧,书中都进行了详细的介绍。更紧张的是,书中还探讨了一些最前沿的研究领域,比如人类反馈强化学习、指令自举标注算法等。
大规模数据处理和分析的工程师。对于面对怎样高效处理大规模数据、怎样构建分布式训练架构等题目的工程师来说,本书可以提供很多名贵的发起和思路。例如,第 6 章对数据处理和分布式训练模式进行了深入的讨论。
AI 技能的爱好者和使用者。如果你是一个 AI 技能的爱好者,大概是一个善于运用技能改善生活的人,本书同样得当你。书中对大语言模型的介绍通俗易懂,可以让你对这个强盛的技能有个全面的了解。此外,书中还提供了很多实用的使用技巧和案例,可以将它们直接应用到你的生活或工作中去。
目次
上拉下滑查看目次 ↓
前言
第 1 章 人工智能的新里程碑——ChatGPT / 1
1.1 ChatGPT 的发展历程 / 1
1.2 ChatGPT 的能力 / 3
1.3 大语言模型的技能演化 / 6
1.3.1 从符号主义到毗连主义 / 6
1.3.2 Transformer 模型 / 7
1.3.3 无监督预训练 / 10
1.3.4 有监督微调 / 11
1.3.5 人类反馈强化学习 / 11
1.4 大语言模型的技能栈 / 12
1.5 大语言模型带来的影响 / 13
1.6 大语言模型复现的壁垒 / 16
1.6.1 算力瓶颈 / 16
1.6.2 数据瓶颈 / 17
1.6.3 工程瓶颈 / 18
1.7 大语言模型的局限性 / 19
1.8 小结 / 20
第 2 章 深入理解 Transformer 模型 / 21
2.1 Transformer 模型简介 / 21
2.2 自注意力机制 / 23
2.2.1 自注意力机制的盘算过程 / 23
2.2.2 自注意力机制的本质 / 26
2.2.3 自注意力机制的优势与局限性 / 28
2.3 多头注意力机制 / 29
2.3.1 多头注意力机制的实现 / 29
2.3.2 多头注意力机制的作用 / 31
2.3.3 多头注意力机制的优化 / 32
2.4 前馈神经网络 / 33
2.5 残差毗连 / 35
2.6 层归一化 / 36
2.7 位置编码 / 38
2.7.1 位置编码的计划与实现 / 38
2.7.2 位置编码的变体 / 40
2.7.3 位置编码的优势与局限性 / 41
2.8 训练与优化 / 41
2.8.1 损失函数 / 41
2.8.2 优化器 / 42
2.8.3 学习率调解策略 / 42
2.8.4 正则化 / 43
2.8.5 其他训练与优化技巧 / 44
2.9 小结 / 46
第 3 章 天生式预训练 / 47
3.1 天生式预训练简介 / 47
3.2 GPT 的模型架构 / 48
3.3 天生式预训练过程 / 50
3.3.1 天生式预训练的目标 / 52
3.3.2 天生式预训练的误差反向流传过程 / 53
3.4 有监督微调 / 55
3.4.1 有监督微调的原理 / 55
3.4.2 有监督微调的特定任务 / 56
3.4.3 有监督微调的步骤 / 58
3.5 小结 / 59
第 4 章 无监督多任务与零样本学习 / 61
4.1 编码器与解码器 / 61
4.2 GPT-2 的模型架构 / 64
4.2.1 层归一化 / 65
4.2.2 正交初始化 / 66
4.2.3 可逆的分词方法 / 67
4.2.4 可学习的相对位置编码 / 71
4.3 无监督多任务 / 72
4.4 多任务学习与零样本学习的关系 / 74
4.5 GPT-2 的自回归天生过程 / 76
4.5.1 子词单位嵌入 / 76
4.5.2 自回归过程 / 77
4.6 小结 / 79
第 5 章 稀疏注意力与基于内容的学习 / 80
5.1 GPT-3 的模型架构 / 81
5.2 稀疏注意力模式 / 83
5.2.1 Sparse Transformer 的特点 / 83
5.2.2 局部带状注意力 / 85
5.2.3 跨层稀疏毗连 / 85
5.3 元学习和基于内容的学习 / 86
5.3.1 元学习 / 87
5.3.2 基于内容的学习 / 87
5.4 概念分布的贝叶斯推断 / 90
5.4.1 隐式微调 / 90
5.4.2 贝叶斯推断 / 93
5.5 思维链的推理能力 / 95
5.6 小结 / 99
第 6 章 大语言模型的预训练
策略 / 100
6.1 预训练数据集 / 100
6.2 预训练数据的处理 / 102
6.3 分布式训练模式 / 104
6.3.1 数据并行 / 105
6.3.2 模型并行 / 106
6.4 分布式训练的技能门路 / 110
6.4.1 Pathways / 111
6.4.2 Megatron-LM / 113
6.4.3 ZeRO / 116
6.5 训练策略案例 / 120
6.5.1 训练框架 / 120
6.5.2 参数稳固性 / 120
6.5.3 训练设置的调解 / 121
6.5.4 BF16 优化 / 121
6.5.5 其他因素 / 122
6.6 小结 / 123
第 7 章 近端策略优化算法 / 124
7.1 传统的策略梯度方法 / 125
7.1.1 策略梯度方法的基本原理 / 125
7.1.2 紧张性采样 / 127
7.1.3 优势函数 / 128
7.2 Actor-Critic 算法 / 129
7.2.1 Actor-Critic 算法的基本步骤 / 130
7.2.2 值函数与策略更新 / 131
7.2.3 Actor-Critic 算法的题目与挑衅 / 131
7.3 信任域策略优化算法 / 132
7.3.1 TRPO 算法的目标 / 132
7.3.2 TRPO 算法的局限性 / 133
7.4 PPO 算法的原理 / 134
7.5 小结 / 137
第 8 章 人类反馈强化学习 / 138
8.1 强化学习在 ChatGPT 迭代中的作用 / 138
8.2 InstructGPT 训练数据集 / 140
8.2.1 微调数据集的泉源 / 141
8.2.2 标注尺度 / 142
8.2.3 数据分析 / 143
8.3 人类反馈强化学习的训练阶段 / 145
8.3.1 有监督微调阶段 / 145
8.3.2 奖励建模阶段 / 147
8.3.3 强化学习阶段 / 148
8.4 奖励建模算法 / 149
8.4.1 算法思想 / 149
8.4.2 损失函数 / 150
8.5 PPO 算法在 InstructGPT 中的应用 / 151
8.6 多轮对话能力 / 153
8.7 人类反馈强化学习的必要性 / 154
8.8 小结 / 156
第 9 章 大语言模型的低算力领域迁徙 / 157
9.1 指令自举标注 / 157
9.2 人工智能反馈 / 161
9.3 低秩自顺应 / 163
9.3.1 模型训练与部署 / 164
9.3.2 秩的选择 / 165
9.4 量化:低沉部署的算力要求 / 166
9.5 SparseGPT 剪枝算法 / 168
9.6 开源大语言模型的低算力迁徙案例 / 170
9.6.1 基座模型 / 170
9.6.2 自举指令微调的羊驼系列 / 171
9.6.3 中文办理方案 / 172
9.6.4 医疗领域的迁徙实例 / 174
9.6.5 司法领域的迁徙实例 / 175
9.7 小结 / 178
第 10 章 中心件编程 / 180
10.1 补齐短板—LangChain 恰逢
其时 / 180
10.2 多模态融合中心件 / 184
10.2.1 任务规划 / 185
10.2.2 模型选择 / 187
10.2.3 任务执行 / 188
10.2.4 相应天生 / 189
10.3 AutoGPT 自主代理与任务
规划 / 189
10.4 中心件框架的竞品 / 192
10.5 小结 / 194
第 11 章 大语言模型的未来
之路 / 195
11.1 强人工智能之路 / 195
11.2 数据资源枯竭 / 198
11.3 自回归模型的局限性 / 200
11.4 具身智能 / 202
11.4.1 具身智能的挑衅 / 203
11.4.2 PaLM-E / 204
11.4.3 ChatGPT for Robotics / 205
11.5 小结 / 210
限时五折购买链接:https://item.jd.com/14316580.html
直播预报
3 月 7 日周四 19:00,大模型领域技能专家,湖南国家应用数学中心副主任,湘潭市京东智能城市与大数据研究院副院长,湘潭大学盘算机学院. 网络空间学院教授 程戈老师与您分享 “天下模型改变天下:从 GPT 到 Sora”,点击预约观看!
本书概览
限时五折购买链接:https://item.jd.com/14316580.html
限时五折购买链接:https://item.jd.com/14316580.html
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
西河刘卡车医
金牌会员
这个人很懒什么都没写!
楼主热帖
轻量级CI/CD发布部署环境搭建及使用_06 ...
PHP判断远程文件是否存在的四种方法 ...
CAN总线简介
Spring--循环依赖的原理(四)--为什么用 ...
继承和多重继承
工行、建行、农行的 IT 架构是什么样的 ...
一文了解华为FusionInsight MRS HBase ...
全双工与半双工技术剖析
【笔者感悟】笔者的学习心得【六】 ...
2023 Visual Studio Code 插件推荐:18 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表