ToB企服应用市场:ToB评测及商务社交产业平台

标题: 别急着骂百度，来看看大模子到底怎么用 [打印本页]

作者: 尚未崩坏 时间: 2024-11-22 06:27
标题: 别急着骂百度，来看看大模子到底怎么用

文｜光锥智能，作者｜周文斌，编辑｜王一粟
GPT-4惊艳亮相后，压力来到百度这边。
上台后的李彦宏和百度CTO王海峰都略显紧张，这在多年百度相关活动中还优劣常少见。李彦宏坦言，“文心一言对标ChatGPT、甚至是对标GPT-4，门槛是很高的。我本身测试感觉还是有很多不完美的地方。”
文心一言是一个大语言模子、生成式AI产品，发布会上演示了五个利用场景中的综合本领。此中，文学创作、商业文案创作、数理推算是大语言模子常见的本领，在此基础上，中文理解及多模态生成本领更能体现技能程度。

到本日晚间，「光锥智能」拿到文心一言的内测邀请码，在提出多个题目测试之后我们发现，文心一言与New Bing虽然有差距，但整体要比预期更好。比如在为商业访谈类栏目起名、对洛希极限的表明上都十分完整。但同时也存在一些不足，比如在盘算“同时抽水和放水”的数学题目时，文心一言就出现了审题错误。

金玉在前，百度在文心一言发布会召开后，无论是产品口碑，还是股价体现，短期内肯定会有压力。毕竟，天下上还只有一个OpenAI。
面临如此大的压力，李彦宏回应了为什么依然要在3月16日公开辟布的原因：第一是市场需求，无论是百度的产品，还是客户，都有需求。第二是网络反馈，“一旦有了真实的人类反馈，文心一言的进步速度会非常快，我们都希望它快点发展”。
事实上，在ChatGPT惊艳亮相之前，GPT的1～3版本，都是在长期低调开源测试后，才达到了后面的结果。
短期体现和长期价值还是有所差别，抛开情绪，我们更关心，文心一言和GPT-4在技能上有哪些相同和差别？模子真的是越大越好吗？利用大模子的产业化之路，应该怎么走？

01 “文心一言”对线“GPT-4”

文心一言在发布会上相对出彩的展示，莫过于多模态生成。
在发布会上，李彦宏先是让文心一言为2023智能交通大会生成了一张海报，然后又让其撰写了一段关于智能交通的笔墨，并让其用四川话读出来，最后还让文心一言用这些素材生成了一段视频。
昨天，在GPT-4的发布会上，Open AI总裁和联合创始人Greg Brockman展示了GPT-4基于一张草图生成网站的过程，让很多人知道了大模子单模态与多模态的区别。
GPT-4是一个典型的多模态预训练模子，它能够支持图像和文本的输入，然后以文本的方式输出。而文心一言展示的则是以文本的方式输入，以文本、语音、图像和视频的方式输出。
输入和输出着实具有本质上的区别。
有AI开辟从业者向光锥智能表示，多模态输出着实并不难，难的是输入。比如输出语音，不过是先输出笔墨然后再加一个TTS技能，已经很成熟了。
而多模态输入，则需要大模子真正“长出眼睛”读懂图片意思，需要在预训练阶段就将图片和图片标注信息放入训练数据中。
比如这次GPT-4令人惊艳的强大，就体现在图片理解上。
给到一个物理题的照片，GPT-4能够读懂题目然后解答。

GPT-4还能识别图片中的幽默部门，比如给GPT-4一个长相奇怪的充电器的图片，问为什么这很可笑？GPT-4能回答说，因为VGA线充iPhone。
但无论怎么说，从GPT-4到文心一言都在阐明李彦宏的那句话，“多模态是生成式AI一个明确的发展趋势。”

据王海峰先容，文心一言重要脱胎于两大模子，百度ERNIE系列知识增强千亿大模子，以及百度大规模开放域对话模子PLATO。
此基础上，重要采用了六项焦点技能，包罗监督精调、人类反馈强化学习（RLHF）、提示构建、知识增强、检索增强和对话增强技能。

此中，人类反馈强化学习是目前大模子训练中普遍应用到的技能，ChatGPT能够在GPT-3的基础上产生质变，成为跨时代的产品，很大程度上依赖于此。
这些技能中具有百度特色的重要是知识增强、检索增强和对话增强技能。
此中，知识增强重要包含知识内化和知识外用两部门，知识内化又包罗语义学习和数据构造，知识外用则包含知识推理和提示构架。
这些技能又都基于百度的知识图谱。所谓知识图谱是一个弘大的数据模子，是指一个由世间万物构成的“实体”以及他们之间的“关系”构建起来的庞大“知识”网络。
百度CTO王海峰曾先容，“百度构建了天下上最大规模的知识图谱，拥有超过50亿实体，5500亿事实，能够通过语言、听觉、视觉等得到对天下的同一认知，突破了实际应用中场景复杂多变、数据稀缺等难题。”
在这个知识图谱中，除了基础的通用图谱之外，百度还针对差别的应用场景和知识形态，构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。
检索增强则与百度在搜索引擎上的技能积累有关，简单理解就是，当用户问出一个题目后，文心一言会先通过搜索引擎将知识都检索一遍，然后再筛选整合此中有效的信息作为输出。
最后的对话理解，则包含百度积累的记忆机制，上下文理解，对话规划等等。
除了基础技能架构，百度并没有公布模子布局和参数，而是花了大量的时间用来表明本身在文心大模子、产业大模子、AI技能四层构架上的布局。
由于这都是此前积累的本领，因此这次文心一言的发布，不像是百度研发了一个新产品和新技能，更像是百度将之前全部的工作打包，以文心一言的方式整合输出。所以，我们会在文心一言里看到文心一格的图片生成，会看到已经在百家号应用的主动图文转视频的功能。
就像李彦宏提到的一样，“从某种意义上说，我们已经为此准备了多年，十几年前就开始投入AI研究，2019年就推出了文心大语言模子，本日的文心一言是过去多年努力的延续。”

02 摸着OpenAI过河，让“涌现现象”更有效率发生

虽然除了OpenAI，其他的公司目前都是others，但各人都在摸着GPT过河，在寻找更优质的模子方案。中国公司也一直在积极探索相应大模子的研发和应用，并总结出了很多“中国履历”。
什么样的模子是一个好模子？模子真的是越大越好吗？
要回答这个题目，得先理解，ChatGPT和GPT-4能体现出类人的图片和语言理解本领，就是因为“涌现现象”，说得通俗一点，就是“开窍了”。
涌现现象，是指在当大模子的数规模达到肯定程度时，其解决题目的本领就会发生突变。大模子本领的提升，很大程度上依赖于这种涌现本领，也就是“大力大举出奇迹”。所以，现在模子规模被越做越大，肯定程度上因为各人想要通过增大参数规模来得到更多的涌现本领。
目前这一本领通常在百亿、千亿级别的参数区间出现。“但详细多少参数能够出现涌现现象，也与详细任务、详细模子有关，某些任务13B规模即可，有些任务需要540B，大部门要达到70B。”新浪新技能研发负责人张俊林提到。

但模子做大之后，却又带来产业落地方面的题目。比如更大的模子通常意味着更大的算力斲丧，更高的摆设成本，这让一些垂类范畴，如学校，医院等场景很难负担得起。
因此，在产生“涌现本领”的阈值后，如何将模子做“小”反而是产业落地的一个重要课题，并且也是技能发展的一个重要方向。
那么题目来了，如何既将模子做小，又能保证涌现本领呢？
张俊林提到几个例子，比如DeepMind发布的Chinchilla和Meta发布的LLaMA，此中Chinchilla的模子规模只有70B，LLaMA的模子规模在7B到65B之间，都是目前规模相对较小的模子。
而从实行结果上看，纵然模子规模相对较小也同样可以具备涌现本领，但前提是增加更多的训练数据量。以Chinchilla为例，其对标的模子规模是280B是Gopher，而Chinchilla能够以70B的参数规模做出同样的效果，代价是将训练数据提升了4倍。

因此，张俊林以为：“减小模子巨细增加训练数据数量，可能不影响小模子的涌现本领。”这成为做小模子的一个前提。“在如许的基础上，我们大概可以先做小，再做大。”
在解决了涌现本领之外，将模子做小的另一个原因在于，现在大模子的很多参数着实并没有被有效利用。
DeepMind在2022年的一个研究中提到，在给定总盘算量稳固的情况下，模子训练Loss在模子参数量和训练数据量的变化存在一个最优的平衡点。
该研究给出了三种最优盘算方式，并且比较了GPT-3等千亿模子，发现它们都没有达到理论上的最长处，这意味着GPT-3庞大的数据着实并没有被充分利用。
达观数据董事长CEO陈运文以为，当下的千亿参数模子可能只发挥了百亿模子的理论效果，一些参数可能被浪费了。换句话说，千亿规模的大模子着实是可以压缩，并做得更小的。
Meta在这方面就曾做过尝试，2023年Meta推出百亿规模的模子LLaMA，虽然参数规模只有百亿，不到GPT-3的十分之一，但通过实行体现在卑鄙任务中的体现好于GPT-3等千亿规模的模子。这此中的关键在于，Meta利用了1.4万亿Token，是GPT-3的近4.7倍。
所以陈运文也以为，“整体来看只管模子的参数规模越大越好，但性价比更高的参数规模方案仍然值得探索。”

除了将“大”模子做“小”更利于产业落地之外，通过更新指令学习方法，用更小的样本得到更好的学习效果也是目前国内在探索的方向。
做如许的探索也和目前中文产业面临的客观情况有关。一方面，中文数据在整个互联网中的占比本身就比较小，仅有5%左右。另一方面，纵然数量庞大的英文数据在模子爆炸的本日也面临着即将被耗尽的题目。
有研究预计，互联网上可用的数据资源很有可能会被耗尽，此中高质量的语言数据大约在2026年耗尽，低质量语言数据大约在2050年耗尽，视觉图像数据也将在2060年耗尽。

因此，如何提高数据的利用效率成为一个重要的课题。
目前，AI大模子的理解本领重要来源于两个方面，即“预训练+参数微调”以及“预训练+提示学习”，这两个学习方式各有优劣。
此中“预训练+参数微调”会面临资源占用过多，过拟合题目严肃，缺乏通用本领等题目。而提示学习也有单一的外部提示信号难以最大限度地引发预训练大模子的本领，从而高质量地完成详细任务的题目。
在如许的背景下，行业提出了从提示学习到指令学习的改变。
所谓指令学习，是指通过若干任务相关提示增强来监督数据，优化模子参数。即通过参数微调提升多任务实行效果，利用提示语出发模子实行特定任务。

其焦点在于，它仍然像微调一样调解此中的参数来使大模子适应差别的任务，但调解完成之后的模子是一样的，全部的任务都可以对应一个模子。
有了如许的调解，对大模子的训练效率就会提升。
比如在Google的一个案例中，他们在62个数据集中的40个任务进行训练。但模子参数达到百亿规模之后，这几十个参数的联合指令学习却可以解决很多之前未训练的题目。
在这之前，各人普遍应用的是多任务学习，即学习一个任务解决一个任务，没有学习过的任务就没法解决。而在这之后，一些之前没有训练过的任务也能够被解决，即大模子的通用本领在增强。
但要实现这个题目，找到合适的指令就变得非常重要，毕竟差别的任务、差别的样本、用什么样的提示语才气得到更好结果是需要去尝试的。
这也是OpenAI选择免费开放ChatGPT的一个重要原因，因为它需要通过这种方式网络全球的题目指令，来完成大模子的进一步优化。
李彦宏也在文心一言发布会上提到，之所以选择在这个时间发布文心一言，除了很多业务和客户需要这项技能外，也因为文心一言本身需要通过用户利用来网络数据。
针对这个场景，中科院主动化所就提出，能不能通过机器主动去寻找这些提示语，让整个模子的效果变得更好。因此他们提出了同一的提示语学习方法，可以同时建模任务级信息和样本级信息。
这种学习方法的优势在于，它可以为每个任务学习以一个提示，为任务中的每个样本学习一个提示，然后将两类提示信息进行融合，得到最佳提示。
通过同一提示学习方法，中科院主动化研究所的SuperGLEU标准数据集上取得少样本学习的最佳平均性能。
此中，在单任务和句子分析上，Dyanmic-UPL得到了83.2分，GPT-3则是70分。而在双任务和双句子的分析上，Dyanmic-UPL得到70分，GPT-3是49.8分。

03 得到一个好答案，不如提出一个好题目

GPT-4依然在不断突破着人们对AI认知的可能性，对意图理解的高度提升，并且不但停留在语言上，更升维到图像里。别的，它还拥有险些万能的专业和职业技巧，人类生物脑无法相比的数据存储容量、进化速度。
这几点加起来，就非常可怕。有网友就贴出了一张ChatGPT回答的图片：

高兴之后，技能进步带来的总是焦急。
18世纪60年代，当珍妮机大规模进入工厂拉开第一次工业革命的大幕时，就曾有大批纺织工人聚集起来，将制作好的“珍妮机”通通捣毁。两百多年后的本日，当ChatGPT风靡全球之后，人们争相讨论的焦点仍然是“谁将会被替代”的题目。
但实际上，“GPT”们要全面替代人可能并不容易。
我们会看到，ChatGPT能够写作，能够做规划，甚至能主动编程、Stable Diffusion能够完成AI绘画，以及各种能主动生成周报，能写诗的大模子和产品层出不穷。
但这些强大的本领背后仍然需要人去操作，这此中甚至需要人具备更多的专业知识。
比如在下面这张图片生成中，创作者对AI的创作进行了详细的规划，包罗风格、眼睛、衣服、甚至光线。

在如许的限制下，AI就能发挥出比较稳固的结果，生成出高程度的作品。而这些词汇，在大模子的生成训练中被称为“提示词”，提示词越准确生成的结果越好。
从光锥智能得到的一份关于AI绘画的提示词中可以看到，此中涉及到很多专业词汇，比如东方山水画、日本浮世绘、抽象风、墨水渲染、概念艺术、哥特式暗中等等。
可以看到，对这些词汇背后的寄义，用在绘画上的效果以及如何搭配更富有美感，非专业人士着实并不容易把握。

再以编程为例，普通人确实可以随机让ChatGPT编写一条程序，但面临复杂APP时，什么样的提示词能够得到最优的代码，系统整体代码需要如何架构、程序如何编写运行更有效率、AI生成的程序是否存在错误等等，这些也并非普通人上手就能完成的。
也就是说，虽然GPT这类的大模子降低了很多工作的门槛，但这些工作的上限并没有改变。即普通人能够生成一些基础的内容，但要一连、稳固、高质量的生成专业内容，对背后操作职员的专业性仍然具有挑衅。
比如在NLP大模子研发范畴，由于差别提示语产生的结果往往差别很大，如作甚每个题目寻找提示语成为难题。中科院主动化所研究员张家俊提到，现在行业里出现了一个提示工程师的职业，工作就是研究如作甚每一个题目寻找最佳的提示语。
也就是说，在大模子应用之后，很多人的工作不是被替代掉了，而是转变了工作性质和工作方式。比如画师从详细动手画一幅画转酿成提出想法、丰富细节，然后让AI去做实行。
而这个过程本质上是AI在作为一种工具去提高劳动者的劳动效率。但同时，也是AI在反向给人类工作者提出更高的要求，即在AI能够将一些想法直接酿成现实的背景下，相比于给出一个好的答案，不如提出一个好的题目。
正如李彦宏在文心一言发布会上提到的，随着大模子的利用，脑力工作者的效率会有4倍的提升，很多人的工作性质会发生不可逆转的改变。
但不能否认的是，随着大模子的遍及，大多数的现有工作和岗位配置的价值定位都需要重新思考。同时我们对于人才培养的标准、筛选模式都需要重新构建。
毕竟GPT-4在考试中已经能够超过80%~90%的学生，假如仅仅依靠考试结果来筛选人才，那对于大多数岗位来说，不如选择AI。
所以，在AI席卷的未来，人类工作者如何找到新的定位，不但是某一个人的题目，也是整个社会的题目。
我们原本以为人工智能发展之后，优先替代的会是简单重复劳动，但技能人不测的是，它优先替代的却是有创造性却又不那么强的岗位。
所以，至少目前而言，那些月薪几万的岗位可能会被替代，但你月薪3000搬砖的岗位暂时会比较牢靠。
毕竟，AI大模子也是有成本的，它可比你贵多了（Dog）。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)