ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目的是快速建立AIGC知识体系,含有大量的计算专业名词,发起阅读同时扩展搜刮。https://img-blog.csdnimg.cn/img_convert/2ac1719adc84fe4c243b6dd9744e9caa.webp?x-oss-process=image/format,png
一、行业近况
1、概念界定
区别于PGC与UGC不同的,AIGC是使用人工智能技术主动天生内容的新型生产方式。
https://img-blog.csdnimg.cn/img_convert/0cedfceeb04a24f60440544a97620dcc.webp?x-oss-process=image/format,png
https://img-blog.csdnimg.cn/img_convert/4499345d57c66b8ef8bb0e78590b2e22.webp?x-oss-process=image/format,png
2、数据模态
按照模态区分,AIGC又可分为音频天生、文本天生、图像天生、视频天生及图像、视频、文本间的跨模态天生,细分场景浩繁,此中跨模态天生值得重点关注。
https://img-blog.csdnimg.cn/img_convert/0ecb07198344ddce3b7c0f36874393ee.webp?x-oss-process=image/format,png
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式
跨模态,指的是像以文天生图/视频大概以图天生文这种情况比方,百度的文心一格就是典型的以文天生图:
https://img-blog.csdnimg.cn/img_convert/f62416b14f4ef474c7ab5d2ca2c9ebf7.webp?x-oss-process=image/format,png
https://img-blog.csdnimg.cn/img_convert/ecca56c8c2c302ad7af9da6aa7558512.webp?x-oss-process=image/format,png
3、发展进程
AIGC 的发展可以大致分为以下三个阶段:
[*]早期抽芽阶段:20 世纪 50 年代—90 年代中期,受限于科技程度,AIGC 仅限于小范围实验
[*]沉积积聚阶段:20 世纪 90 年代中期—21 世纪 10 年代中期,AIGC 从实验向实用转变,受限于算法,无法直接进行内容天生
[*]快速发展阶段:21 世纪 10 年代中期—如今,深度学习算法不停迭代,AI 天生内容种类多样丰富且结果逼真
https://img-blog.csdnimg.cn/img_convert/8441e13793f94485c7b16a4d75e51960.webp?x-oss-process=image/format,png
https://img-blog.csdnimg.cn/img_convert/7ac37a3bf9f837d67708c132922a03d9.webp?x-oss-process=image/format,png
二、技术实现
AIGC 技术主要涉及两个方面:自然语言处理惩罚 NLP 和 AIGC 天生算法。
1、NLP自然语言处理惩罚
自然语言处理惩罚(NLP)赋予了AI明白和天生能力,是实现人与计算机之间如何通过自然语言进行交互的手段。
NLP技术可以分为两个方向:NLU和NLG。
1.1 自然语言明白 NLU
NLU使得计算性能够和人一样,具备正常人的语言明白能力。
过去,计算机只能处理惩罚结构化的数据,NLU 使得计算性能够识别和提取语言中的意图来实现对于自然语言的明白。
https://img-blog.csdnimg.cn/img_convert/ccc0703f53cec854d68abb90d2222b51.webp?x-oss-process=image/format,png
由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在明白上有许多难点,以是 NLU 至今还远不如人类的表现。
https://img-blog.csdnimg.cn/img_convert/0d2077c76e4ba10c29d0af10b20385c8.webp?x-oss-process=image/format,png
自然语言明白跟整个人工智能的发展历史类似,一共经历了 3 次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。
https://img-blog.csdnimg.cn/img_convert/ee70256fd0caa65ae2bd2145e5e206e4.webp?x-oss-process=image/format,png
1.2 自然语言天生 NLG
NLG将非语言格式的数据转换成人类可以明白的语言格式,如文章、报告等。
NLG 的发展经历了三个阶段,从早期的简朴的数据归并到模板驱动模式再到如今的高级 NLG,使得计算性能够像人类一样明白意图,考虑上下文,并将结果呈如今用户可以轻松阅读和明白的叙述中。
https://img-blog.csdnimg.cn/img_convert/07536cba64b49c2395484d338379a544.webp?x-oss-process=image/format,png
自然语言天生可以分为以下六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式天生和语言实现。
https://img-blog.csdnimg.cn/img_convert/17a147fe995f071aa325e268ab0a6ce0.webp?x-oss-process=image/format,png
https://img-blog.csdnimg.cn/img_convert/c3a12ad672605036c1192790784f4d2e.webp?x-oss-process=image/format,png
1.3 神经网络 RNN
神经网络,尤其是循环神经网络 (RNN) 是当前 NLP 的主要方法的核心。
此中,2017 年由 Google 开发的 Transformer 模型现已逐步代替长短期影象(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。
https://img-blog.csdnimg.cn/img_convert/fbe3f53eed19b438fa0488074bbb4c69.webp?x-oss-process=image/format,png
Transformer 的并行化优势允许其在更大的数据集上进行练习,这也促成了 BERT、GPT 等预练习模型的发展。
相关系统使用了维基百科、Common Crawl 等大型语料库进行练习,并可以针对特定使命进行微调。
https://img-blog.csdnimg.cn/img_convert/93763caa0ddbb2dc1fb14800a452dd90.webp?x-oss-process=image/format,png
1.4 Transformer 模型
Transformer 模型是一种接纳自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。
https://img-blog.csdnimg.cn/img_convert/1671ec2f9d5bff32065e3610b9975ee3.webp?x-oss-process=image/format,png
与循环神经网络(RNN)一样,Transformer 模型旨在处理惩罚自然语言等次序输入数据,可应用于翻译、文本摘要等使命。与 RNN 不同的是,Transformer 模型能够一次性处理惩罚所有输入数据。
https://img-blog.csdnimg.cn/img_convert/7f843dff27d005490f51aa232fd889d7.webp?x-oss-process=image/format,png
注意力机制可以为输入序列中的恣意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理惩罚一个单词,这种架构允许更多的并行计算,并以此减少练习时间。
ChatGPT是OpenAI从GPT-3.5、GPT-4系列中的模型进行微调产生的聊天呆板人模型,能够通过学习和明白人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。
2、AIGC算法
[*]AIGC 天生算法主流的有天生对抗网络 GAN 和扩散模型
[*]扩散模型已经拥有了成为下一代图像天生模型的代表的潜力
2.1 天生对抗网络 GAN
GAN是天生模型的一种,透过两个神经网络相互博弈的方式进行学习。
https://img-blog.csdnimg.cn/img_convert/d764d8c8432ba4e3aa43ffb3ccaea8ac.webp?x-oss-process=image/format,png
GAN 被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造假造的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。
https://img-blog.csdnimg.cn/img_convert/5d2f631d4b5ff943066e3b63b3d88d4f.webp?x-oss-process=image/format,png
2.2 扩散模型 Diffusion Model
GAN(天生对抗网络)有天生器和鉴别器,它们相互对抗,然后天生图像,由于模型本身具有对抗性,因此很难进行练习,使用扩散模型可以解决这个问题。
扩散模型也是天生模型,扩散模型背后的直觉泉源于物理学。在物理学中气体分子从高浓度地域扩散到低浓度地域,这与由于噪声的干扰而导致的信息丢失是相似的。
Diffusion通过引入噪声,然后尝试通过去噪来天生图像。在一段时间内通过多次迭代,模型每次在给定一些噪声输入的情况下学习天生新图像。
2.3 Lora模型
LoRA是Low-Rank Adaption of large language model的缩写,是一种大语言模型fine-tune的方法。
https://img-blog.csdnimg.cn/img_convert/0f9c45b6785eec8f6d64e833848dc5b1.webp?x-oss-process=image/format,png
Lora主要思路是在固定大网络的参数,并练习某些层参数的增量,且这些参数增量可通过矩阵分解变成更少的可练习参数,大大低落finetune所需要练习的参数量。
https://img-blog.csdnimg.cn/img_convert/03d8ac3fd205498a3cd069d8b9369466.webp?x-oss-process=image/format,png
三、商业落地
1、A应用场景
[*]AIGC 在笔墨、图像、音频、游戏和代码天生中商业模型渐显
https://img-blog.csdnimg.cn/img_convert/e52cae79f13ad8705d1ef12448b847be.webp?x-oss-process=image/format,png
2、财产地图
https://img-blog.csdnimg.cn/img_convert/c7982c15f06d53f27797b15ae2172b2e.webp?x-oss-process=image/format,png
2.1 财产上游:数据服务
[*]人工智能的分析、创作、决策能力都依赖海量数据
[*]决定不同呆板间能力差异的就是数据的数量与质量
https://img-blog.csdnimg.cn/img_convert/8267d73cbe5c0bbe3b5d449076a11d11.webp?x-oss-process=image/format,png
2.2 财产中游:算法模型
算法模型是AIGC最核心的环节,是呆板学习的关键所在。通常包含三类参与者:专门实验室、企业研究院、开源社区。
https://img-blog.csdnimg.cn/img_convert/12a8fd25629f56eb51772f3dee849c2c.webp?x-oss-process=image/format,png
AI实验室:算法模型在AI系统中起决策作用,是它完成各种使命的基础,可以视为AI系统的灵魂所在。
企业研究院:一些团体型公司或企业每每会设立专注于前沿科技领域的大型研究院,下设不同领域的细分实验室,通过学术氛围更浓重的管理方式为公司的科研发展添砖加瓦。
开源社区:社区对AIGC非常重要,它提供了一个共享结果、代码的平台,与其他人相互互助,共同推动AIGC相关技术的进步。根据覆盖领域的宽度和深度,这种社区可以分为综合型开源社区和垂直型开源社区。
2.3 财产下游:应用拓展
https://img-blog.csdnimg.cn/img_convert/d48ef22bc7adc25a7e625c8bb6931733.webp?x-oss-process=image/format,png
3、细分市场
3.1 文本处理惩罚
文本处理惩罚是AIGC相关技术距离普通消耗者近来的场景,技术较为成熟。
一样平常说来文本处理惩罚可以细分为营销型、贩卖型、续写型、知识型、通用型、辅助型、交互型、代码型。
https://img-blog.csdnimg.cn/img_convert/1a3b049b75ba6278be8b8dee223ecaaa.webp?x-oss-process=image/format,png
3.2 音频处理惩罚
目前的音频处理惩罚主要分为三类:音乐型、讲话型、定制型,AI的应用将优化供给效率,改善整体利润程度。
3.3 图片处理惩罚
图片的创作门槛比笔墨高,传递信息也更直观,随着AIGC应用的日益广泛,图片处理惩罚也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理惩罚可细分为天生型、广告型、设计型、编辑型。
3.4 视频处理惩罚
视频日益成为新期间最主流的内容消耗形态,将AIGC引入视频将是全新的赛道,也是技术难度最大的领域。视频处理惩罚可以细分为天生型、编辑型、定制型、数字虚拟人视频。
https://img-blog.csdnimg.cn/img_convert/150f53b4a8db7dcba4958f503e2cc86b.webp?x-oss-process=image/format,png
https://img-blog.csdnimg.cn/img_convert/3bc997bb1547d87f2328df0e009eb03b.webp?x-oss-process=image/format,png
3.5 代码天生
以GitHub Copilot为例,Copilot是GitHub 和 OpenAI 互助产生的 AI 代码天生工具,可根据命名大概正在编辑的代码上下文为开发者提供代码发起。官方先容其已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的练习,支持大多数编程语言。
四、面临挑战
除了技术上亟待解决的算力、模型准确性之外,目前AIGC相关的挑战主要集中在版权、欺诈、违禁内容三方面。
1、版权问题
[*]AIGC是呆板学习的应用,而在模型的学习阶段一定会使用大量数据,但目前对练习后的天生物版权归属问题尚无定论
[*]为什么AI基于自己创作的作品天生的新作品却与自己无关?而且现行法律都是针对人类的举动规范而设立的
[*]AI只是一种工具,不受法律约束与审判,即便证据充分,作者的维权之路通常也难言顺利
[*]不过对于AIGC与作者的关系将会随着期间发展而逐渐清晰,界定也将更有条理性
2、欺诈问题
[*]高科技诈骗手段层出不穷,AI颠末练习后也可以创作出以假乱真的音视频,“换脸”“变声”等功能,滥用危害甚大
[*]部分诈骗分子使用“换脸”技术实验诈骗,也有不法分子恶意伪造他人视频,再转手兜售到灰色市场
3、违禁内容
[*]AIGC取决于使用者的引导,AI对恶意诱导会不加分辨或判断,会根据学习到的信息输出极端或暴力言论
[*]AIGC作为内容生产的新范式,也对国家相关法律法规机构及羁系治理能力都提出了更高要求
参考资料
https://chat.openai.com/chat
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/1406.2661.pdf
https://arxiv.org/pdf/1409.2329.pdf
https://arxiv.org/pdf/2112.10752.pdf
https://arxiv.org/pdf/2106.09685.pdf
https://github.com/pbloem/former
https://github.com/haofanwang/Lora-for-Diffusers/blob/main/convert_lora_safetensor_to_diffusers.py
AIGC:内容生产力的革命—国海证券
AIGC发展趋势报告2023—腾讯研究院
2023AIGC行业研究报告—甲子光年
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]