AI大模子学习笔记之四:天生式人工智能(AIGC)是如何工作的? ...

打印 上一主题 下一主题

主题 547|帖子 547|积分 1641

OpenAI 发布 ChatGPT 已经1年多了,天生式人工智能(AIGC)也已经广为人知,我们常常津津乐道于 ChatGPT 和 Claude 这样的人工智能系统能够神奇地天生文本与我们对话,而且能够影象上下文情境。

Midjunery和DALL·E 这样的AI绘图软件可以通过Prompt 输入文本提示天生多张令人惊艳的美图,看起来相称神奇。

但是,你有没有想过,天生式人工智能(AIGC)究竟是怎么运作的呢?在这篇文章里,我们就来简单相识一下天生式人工智能技能(AIGC)的根本原理,看看它到底能做些什么,还有啥时候你可能不太想依靠它。
一、从有监视学习到天生式人工智能
大多数传统类型的人工智能(如判别式人工智能)都是为了对现有数据进行分类或归类而设计的。相反,天生式人工智能模子的目标是天生前所未见的完全原创的人工成品。
在今天,有监视学习(Supervised Learning)和天生式人工智能(Generative Artificial Intelligence)是当今人工智能领域的两个最紧张领域,其重点是创建算法和模子,以便从训练数据集天生与模式相似的新的真实数据。

天生式人工智能模子颠末训练,可以从巨大的数据集中学习其中的潜在模式,并使用该知识天生与原始数据集相似但不雷同的全新样本或数据。

例如,在人类大概猫狗的图像数据集上训练的天生式人工智能算法可以天生全新的人类图像大概猫和狗的图像,这些图像看起来与原始数据集中的图像相似,但不是精确的复成品。因此,"天生 "一词被用来形貌它。
天生式人工智能(Generative AI)的涌现标志着人工智能技能的重大进步。
1.1 有监视学习的局限性与挑战
在2010年左右,随着大规模有监视学习渐渐成为主流,人们开始寄希望于大数据能够为AI模子的性能带来质的飞跃。
然而,从那时起,AI 科学家们开始观察到一个令人困扰的问题:只管我们有大量的数据可供使用,但纵然我们向小型AI模子继续提供更多的数据,它们的性能改善并不显着。例如,在构建语音识别系统时,只管AI担当了数千以致数十万小时的训练数据,但其正确性与仅使用少量数据的系统相比并无显著进步。这一现象引发了人们对监视学习有用性的怀疑。

进一步的研究表明,仅靠大规模监视学习和大数据集并不能无穷地提升 AI 模子的正确性。
这是因为:


  • 起首,大规模数据集可能存在着标签噪声或错误,导致模子学习到了不正确的模式。
  • 此外,数据可能存在偏差,导致模子在面临新奇数据时表现不佳。
  • 其次,随着数据量的增加,模子的容量可能变得不足以有用地利用数据。纵然有更多的数据可用,模子也可能因其结构或参数的限定而无法充实利用这些信息。
  • 再次,大规模监视学习通常依靠于端到端的训练方法,其中模子直接从输入到输出进行训练。这种方法可能会导致模子在理解数据背后的真实机制方面缺乏深入的抽象能力,从而限定了其性能。
1.2 天生式人工智能的出现
随着人们对监视学习的限定和挑战有了更深入的熟悉,研究职员开始寻求其他方法来克服这些问题。
在这个过程中,天生式人工智能(Generative Artificial Intelligence)应运而生,并渐渐成为人工智能领域的紧张组成部分。
天生式人工智能(AIGC)与传统的机器学习算法不同,它不仅仅局限于对已有数据的分类或猜测,而是可以通过学习数据的分布,创造出全新的、以前从未见过的内容,它能够像一座神奇的创意工厂一样,通过Prompt 提示词不断地生产出令人惊叹的全新数据、图像、音频和文本内容。
天生式人工智能与其他类型人工智能之间的另一个关键区别是,天生式人工智能模子通常使用无监视和半监视机器学习算法。

这意味着它们不必要对学习的数据进行预先标记,这使得天生式人工智能在结构化或组织数据稀缺或难以获取的应用中特殊有用。


  • 这些天生式人工智能系统通常基于深度学习模子构建,这些模子能够从大量的训练数据中学习数据的统计结构和语义信息。
  • 其次,天生式模子具有更强的表达能力,能够捕获数据中的复杂结构和分布。相比之下,传统的监视学习方法可能会受到数据标签的限定,无法完全表达数据的多样性和复杂性。
  • 此外,天生式人工智能还为解决监视学习中的标签噪声和数据偏差问题提供了新的途径。通过学习数据的潜在表示,天生式模子可以更好地理解数据背后的真实机制,从而进步模子对噪声和偏差的鲁棒性。
天生式人工智能的出现为人工智能领域带来了新的思路息争决方案,克服了传统监视学习方法的一些限定和挑战。通过结合天生式方法和传统的监视学习技能,我们可以更好地利用数据,进步模子的性能和泛化能力。
二、天生式人工智能的思想
2.1 天生式人工智能的根本工作原理:
天生式人工智能的根本工作原理是通过学习数据的分布特性,从而能够天生与原始数据相似的新数据。其焦点思想是从训练数据中学习数据的概率分布,并使用学习到的分布模子来天生新的数据样本。
天生式人工智能通常接纳天生对抗网络(GANs)或变分自编码器(VAEs)、Transformer 等模子来实现。
就拿天生对抗网络(GANs)来说,GANs 模子包罗两个紧张组成部分:

1. 天生器(Generator): 天生器是一个神经网络模子,用来接收一个随机噪声向量或其他情势的输入,并将其映射到数据空间。天生器的目标是通过根据用户输入的分析数据模式来创建新数据。通过不断调整天生器的参数,使得天生的样本尽可能地接近真实场景中的数据分布。
2. 判别器(Discriminator): 判别器也是一个神经网络模子,其任务是对天生器天生的样本与真实数据进行区分,估计样本来自于训练数据的概率。它接收来自天生器产生的样本和真实数据的输入,并实验将它们分类为真实或伪造。判别器的目标是最大化正确地将真实数据分类为真实样本,同时将天生的样本正确分类为伪造样本。
每当有用户输入时,天生器就会天生新的数据,判别器将分析它的真实性。来自判别器的反馈使算法能够调整天生器参数并不断地重新调整和细化输出。
在数学上可以证实,在恣意函数的天生器(G)和判别器(D)空间中,存在唯一的解决方案,使得天生器(Generator)天生的内容可以重现真实训练数据的分布,也就是当判别器 D=0.5 时,天生器 G 产生的信息与输入的信息到达均衡。

通过训练天生器和判别器的对抗过程,天生式人工智能模子不断地进步天生样本的质量,使得天生的样本更加逼真,而且与真实数据的分布更加接近。这种对抗性训练的过程使得天生器和判别器之间到达一种均衡,最终这个过程不停持续到天生器产生与输入信息无法区分的数据为止。
2.2 天生式人工智能的工作过程
天生式人工智能的工作过程通常如下:


  • 学习数据分布:天生式模子起首通过大量的训练数据学习输入数据的分布。这些数据可以是图像、文本、音频等情势。模子通过学习数据的特性和统计分布来理解输入数据的内在规律。
  • 天生新数据:一旦天生式模子学习到了数据的分布,它就可以通过随机采样或输入特定的条件来天生新的数据。天生的数据可能具有与训练数据相似的统计特性和结构,但通常是全新的、之前未见过的数据。
  • 优化过程:天生式模子的训练通常涉及到一个优化过程,通过最小化天生数据与真实数据之间的差异来调整模子参数。对抗性天生网络(GANs)中使用了对抗训练的思想,包罗天生器和判别器两个部分,它们相互竞争并共同进步模子的性能。
  • 控制天生过程:一些天生式模子答应用户在天生新数据时提供一些条件或控制参数,以影响天生结果。例如,在天生图像时可以指定天生的图像种别或风格,大概在天生文本时可以指定天生的主题或感情。
  • 评估天生结果:天生式模子通常必要颠末一定的评估和调优来确保天生的数据质量和多样性。这可能涉及到定量指标如天生数据的多样性、真实度等,以及定性评估如人工评价天生数据的质量和逼真度。然后通过一个称为 "推理 "的过程来完善输出。在推理过程中,模子会调整其输出,以更好地匹配所需的输出或纠正任何错误。这样就能确保天生的输出更加逼真,更符合用户希望看到的效果。
三、如何评估天生式人工智能模子
选择正确的模子对于某些特定的任务至关紧张,因为每个任务都有其独特的需求和目标,而不同的天生式人工智能模子也各有其优缺点。比如,某一些模子可能比力擅永天生高质量的图像内容,而另一些模子则更擅永天生顺畅连贯的文本内容。
因此在选择时,必要器重对天生模子进行评估以确定最得当特定任务的模子。这种评估不仅有助于选择正确的模子,还有助于确定必要改进的方面。通过这种方式,可以完善模子并增加实现预期结果的可能性,从而进步人工智能系统的团体成功率。
在评估模子时,通常必要考虑三个关键要素:


  • Quality 质量:天生式模子的输出质量至关紧张,尤其是在直接与用户交互的应用步调中。例如,在文本天生模子中,前言不搭后语的文本可能会让人感觉一团糟,在语音天生模子中,低质量的语音可能会让人听不懂;而在图像天生模子中,天生的图像最好是能够做到浑然天成,和真实的图像无法区分。
  • Diversity 多样性:良好的天生式模子应该能够捕获数据分布中的各种模式,而不会降低天生的质量。这种多样性有助于减少模子中不必要的偏差。
  • Speed 速度:很多交互式应用步调必要快速天生结果,例如及时图像编辑,以支持内容创建的工作流程。因此,在评估天生模子时,天生的速度也是一个紧张的考量因素。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

络腮胡菲菲

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表