Chatgpt 原理解构

打印 上一主题 下一主题

主题 865|帖子 865|积分 2595

一、背景知识


1. 自然语言处理的发展历程

自然语言处理在差别时期出现出差别的特点和发展态势。萌芽期,艾伦・图灵在 1936 年提出 “图灵机” 概念,为计算机诞生奠定基础,1950 年他提出著名的 “图灵测试”,预见了计算机处理自然语言的潜力。1956 年,乔姆斯基的情势语言理论和香农的信息论模子为自然语言处理的发展铺平了道路,这一时期的研究成果为后续自然语言处理技能的发展提供了紧张的理论基础。
发展期,自然语言处理融入人工智能研究范畴,分为基于规则方法的符号派和采用概率方法的随机派两大阵营。这一时期,两种方法的研究都取得了长足的发展,如宾夕法尼亚大学研制乐成的 TDAP 系统和布朗美国英语语料库的创建等。
低速的发展期,虽然自然语言处理的研究进入低谷,但仍取得了一些成果,如基于隐马尔可夫模子的统计方法在语音识别范畴获得乐成,话语分析也取得重大希望。
复苏融合期,90 年代中期以后,计算机速度和存储量大幅增加以及 Internet 商业化和网络技能发展,促进了自然语言处理研究的复苏与发展。2001 年神经语言模子出现,2008 年多任务学习、2013 年 Word 嵌入和 NLP 的神经网络、2014 年序列到序列模子、2015 年注意力机制和基于记忆的神经网络、2018 年预练习语言模子等不断推动自然语言处理技能的进步。
2. 大型语言模子的发展历程

大型语言模子的发展历程与自然语言处理精密相关。早期阶段主要是基于规则的方法,处理少量数据。随着技能的发展,进入基于统计的阶段,如 N-Gram 等模子,但容易出现数据稀疏等题目。2017 年 Transformer 发布后,大语言模子进入基于神经网络的阶段,参数量增长迅速。以 GPT-3 为例,2020 年发布的 GPT-3 算力斲丧费用达到千万美元级别,预练习数据量达到 45TB,实际参数量达到 1750 亿。大语言模子通过数据信息容量巨大、底层模子结构良好、模子练习方法完善等关键突破,实现了性能的大幅提升。未来,大语言模子有望出现超线性发展趋势,并形成全新产业形态,为各个行业带来巨大的厘革和机会。
二、ChatGPT 同类产品


1. BlenderBot3

BlenderBot3 是 Meta 推出的聊天机器人,具有以下特点和上风。首先,它可以与人交互并接收反馈以进步对话能力。基于 Meta AI 公开提供的 OPT-175B 语言模子构建,规模是其前身 BlenderBot 2 的 58 倍。融合了品德、共情和知识等对话技能,并通过使用长期记忆和搜索互联网来举行有意义的对话。
在与 ChatGPT 的对比方面,BlenderBot3 有一些独特之处。它的模子全部部分,包括代码、数据集等全部公开,可供全部人使用。用户在与 BlenderBot3 聊天时,可以点击机器人给出的答复,查看这句话在互联网上的出处。然而,BlenderBot3 也存在一些题目,例如在答复题目时大概会出现错误信息或负面言论。
2. LaMDA

LaMDA 是谷歌推出的一系列专门用于对话的基于 Transformer 的模子。它具有 1370 亿个参数,并使用 1.56 万亿个公开对话数据举行练习。
LaMDA 的运行方式是通过微调采用 Transformer 架构的专用对话神经语言模子而构建,可以使用外部知识源展开对话。在对话时,LaMDA 生成器会对面向的上下文生成几个候选回应,然后 LaMDA 分类器预测每个候选回应的质量和安全分数,最后根据这两项数据的排名选出最佳回应。
在谷歌产品中的应用方面,LaMDA 被用于进步谷歌的对话服务质量,为用户提供更安全、更高质量的对话体验。与 ChatGPT 相比,LaMDA 在参数规模上具有一定上风,但在实际应用中,两者各有特点。
3. sparow

Sparrow 是由 DeepMind 开发的聊天机器人,具有主动执行重复性任务和流程、学习和适应能力强、提供多种定制选项和集成等功能。
Sparrow 的功能特色包括:旨在正确答复用户的题目,同时减少不安全和不适当答复的风险。通过使用人类判定举行练习,使其比基线预练习语言模子更有帮助、更正确和更无害。在自然语言处理范畴,Sparrow 为办理语言模子产生不正确、带偏见或潜在有害输出的题目提供了一种新的思绪和方法。与 ChatGPT 相比,Sparrow 在答复题目的准确性和安全性方面大概更具上风,但在语言的丰富性和创造性方面大概还有待进步。
三、ChatGPT 的工作原理


1. 预练习与提示学习阶段

ChatGPT 在大规模文本数据上举行预练习,学习语言的通用表示。其预练习数据泉源广泛,包括互联网上的各种文本内容,如消息、博客、小说等。据统计,ChatGPT 的预练习数据量达到了数百 GB 乃至更多。通过对如此庞大的数据举行学习,ChatGPT 能够掌握语言的语法、语义和常见的表达方式。
在提示学习阶段,ChatGPT 根据特定任务举行调解,以更好地适应差别的对话场景。例如,当用户提出一个题目时,ChatGPT 会根据题目的关键词和上下文,使用预练习阶段学到的知识,生成一个开端的答复。然后,通过不断调解答复的内容和情势,使其更符合用户的需求。
2. 结果评价与奖励建模阶段

在这个阶段,ChatGPT 网络相同上文下根据回复质量举行排序的数据。具体来说,随机抽取一大批 Prompt,使用第一阶段微调模子,产生多个差别的答复。然后,标注职员对这些答复举行排序,形成练习数据对。
接下来,练习奖励模子。奖励模子的作用是预测标注者更喜欢哪个输出。通过使用 pairwise loss 来练习奖励模子,可以给出相对精确的奖励值。这一步使得 ChatGPT 从命令驱动转向了意图驱动,引导 ChatGPT 输出符合人类预期的内容。
例如,对于一个题目 “今天气候怎么样?”,ChatGPT 大概会生成多个答复,如 “今天气候很好。”“今天气候明朗。”“今天气候不错。” 标注职员会根据答复的质量举行排序,奖励模子会学习这些排序结果,从而能够预测出在不怜悯况下,标注者更倾向于哪个答复。
3. 强化学习与自我进化阶段

在这个阶段,ChatGPT 使用 PPO 强化学习策略微调模子。具体步骤如下:
首先,使用上段练习好的奖励模子,靠奖励打分来更新预练习模子参数。在数据集中随机抽取题目,使用 PPO 模子生成答复,并用上一阶段练习好的 RM 模子给出质量分数。
然后,将回报分数依次传递,从而产生策略梯度,通过强化学习的方式来更新 PPO 模子参数。整个过程迭代数次直到模子收敛。
强化学习算法可以简朴理解为通过调解模子参数,使模子得到最大的奖励(reward),最大奖励意味着此时的回复最符合人工的选择取向。而对于 PPO,它是一种新型的强化学习策略优化算法,具有实现简朴、易于理解、性能稳固、能同时处理离散 / 连续动作空间题目、利于大规模练习等上风。
通过不断地举行强化学习和自我进化,ChatGPT 能够不断优化回复质量,进步对话的准确性和流畅性,更好地满意用户的需求。
四、算法细节


1. 标注数据

ChatGPT 的练习数据标注工作至关紧张。据了解,其练习数据由标注师分别扮演用户和聊天机器人产生人工精标的多轮对话数据,以及根据回复质量排序的数据等。
数据标注的过程复杂且工作量庞大。标注师需要对大量的文本数据举行精细处理,例如对差别类型的回复举行质量排序。这就如同为一座巨大的知识宝库举行分类整理,以便让 ChatGPT 能够更好地从中学习和提取信息。
有研究指出,为了练习 ChatGPT,OpenAI 的相助伙伴 Sama 雇佣了肯尼亚、乌干达和印度的外包员工。这些标注员每 9 个小时要阅读和标注 150 - 200 段文字,段落长度从 100 个单词到 1000 多个单词不等。薪酬方面,Sama 为 OpenAI 雇佣的数据标签员工付出的时薪在 1.32 美元 - 2 美元之间,具体取决于资历和体现。
2. 建模思绪

ChatGPT 基于 Transformer 架构,采用 “预练习 + 微调” 的方法,通过自监督学习、掩藏语言模子和强化学习等技能,生成准确、连贯和有意义的对话内容。
Transformer 架构是一种仅依赖于注意力机制而不使用循环或卷积的简朴模子,它在性能方面体现出色,具有更好的并行度和更短的练习时间。在预练习阶段,ChatGPT 通过自监督学习在大规模文本数据上学习语言的通用表示,掌握语言的语法、语义和常见表达方式。掩藏语言模子则通过随机掩藏部分文本,让模子预测被掩藏的部分,进一步进步模子对语言的理解能力。
在微调阶段,ChatGPT 根据特定任务举行调解,以更好地适应差别的对话场景。强化学习则通过奖励模子和策略优化算法,不断优化回复质量,使模子输出更符合人类预期。
3. 存在的题目

尽管 ChatGPT 取得了巨大的乐成,但它仍然存在一些题目。
首先,简朴逻辑题目错误依旧明显。在处理一些需要逻辑推理的题目时,ChatGPT 大概会给出错误的答案。例如,在数学题目上,根据亚利桑那州立大学副教授的一项研究,ChatGPT 的准确率低于 60%。
其次,有时会给出看似合理但不正确或谬妄的答案。这是因为 ChatGPT 是基于大量数据举行练习的,它大概会受到数据中的偏见和错误信息的影响。
此外,ChatGPT 的部分回复废话较多、句式固定。在答复题目时,它大概会重复之条件出的观点,大概使用一些固定的句式,这大概会让人类读者感到反面谐。
抵抗不安全的 prompt 能力较差也是一个题目。如果用户输入一些不安全或不适当的提示,ChatGPT 大概会给出不适当的回复,这大概会带来一定的风险。
五、关于 chatpgt 的思考


ChatGPT 的出现无疑给社会带来了巨大的冲击和厘革。从社会层面来看,它极大地进步了信息处理和交流的服从。例如,在客服范畴,ChatGPT 可以快速响应客户的题目,为企业节省大量人力本钱。据统计,一些企业在引入 ChatGPT 后,客服响应时间收缩了 50% 以上,客户满意度也有显著提升。同时,它也为人们的一样平常生活提供了便利,如帮助人们撰写邮件、文案等,节省了时间和精力。然而,它也带来了一些挑衅,如虚假信息的传播和就业岗位的调解。
在教育范畴,ChatGPT 既带来了机会也带来了挑衅。一方面,它可以作为学生的学习助手,提供在线学习资源,支持学生自主学习,改善教学方式。例如,学生可以通过与 ChatGPT 对话,获取知识和解答疑惑,进步学习服从。但另一方面,它也大概导致学生作弊行为的增加,影响学生的独立思考能力。因此,教育工作者需要引导学生正确使用 ChatGPT,培养学生的批驳性头脑和创新能力。
在科技范畴,ChatGPT 推动了自然语言处理技能的发展,为人工智能的进一步发展奠定了基础。未来,ChatGPT 有望在提升语境理解能力、生成文本的多样性和创造性、加强对话系统的实时学习与适应能力、进步跨语言和文化交流能力、提升计算服从及环保性、加强个性化和定制能力等方面取得突破。例如,通过改进算法和模子结构,让 ChatGPT 具备更人性化的推理能力,包括因果关系推理、逻辑演绎能力,更好地把握长对话的上下文、对复杂情境的准确识别和更精细化的感情感知。
然而,ChatGPT 的发展也面临着一些挑衅。首先,数据隐私和安全题目是一个紧张的挑衅。由于 ChatGPT 需要大量的数据举行练习,这些数据大概包含个人隐私信息,如果处理不当,大概会导致数据泄漏和隐私侵占。其次,伦理道德题目也需要引起关注。例如,ChatGPT 大概会被用于不道德的目标,如传播虚假信息、举行网络攻击等。此外,ChatGPT 的发展也大概加剧社会不平等,因为只有具备一定技能和资源的人才华充分使用它的上风。
为了应对这些挑衅,我们需要采取一系列措施。在技能方面,加强数据隐私和安全保护技能的研发,确保用户数据的安全。在伦理道德方面,制定相关的规范和准则,引导 ChatGPT 的合理使用。在教育方面,加强对学生的数字素养教育,培养学生正确使用人工智能技能的能力。在社会层面,加强对人工智能技能的监管,确保其发展符合社会的长处和代价观。
总之,ChatGPT 的出现为我们带来了机会和挑衅,我们需要正确熟悉和对待它,充分发挥其上风,同时积极应对其带来的挑衅,推动人工智能技能的康健发展,为人类社会的进步做出贡献。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

立聪堂德州十三局店

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表