人工智能-AIGC从入门到入坑01（初学者适用版）

天空闲话 发表于 2024-7-23 10:13:54

AIGC从入门到入坑01（初学者适用版）

AIGC从入门到入坑系列文章

前言

Today，人工智能技术快速发展和广泛应用已经引起大众的兴趣和关注了。特殊是作为人工智能重要分支的深度学习，展现出独有的统治力，引领了一场科技革命。作为一名刚毕业的本科生，本身对人工智能感兴趣的我也选择加入这场海潮中，开坑系列博客，同时作为本身的学习条记，渴望本身能吃透AIGC和AI大模子，探寻一条到AGI的朝圣之路。
起首说明一下AIGC、AI大模子和AGI三个名词的解释，正所谓知其然，才知其以是然。

[*]AIGC：全名“AI Generated Content”，称为“生成式AI”。由AI主动创作生成的内容，例如AI文本续写，笔墨转图像的AI图、AI数字化主持人等，都属于AIGC的范畴。
[*]AI大模子：全名“AI Large Models”,是指具有大量参数和复杂结构的人工智能模子,AI大模子练习必要巨大的计算资源和复杂的分布式系统支持。
[*]AGI:全名"Artificial General Intelligence",AGI 指的是通用人工智能，也称为强人工智能。AGI旨在实现像人类一样的通用智能，能够在各种差异范畴进行学习和推理，并具备雷同人类的认知能力。
让我们先吃透AIGC吧~
以下是本篇文章正文内容
学习路径

https://img-blog.csdnimg.cn/direct/2c05f377940e46fe8dd75baccfaac682.png
AI时间线

人工智能简史

https://img-blog.csdnimg.cn/direct/cda1c6f7f8fe4df1a56cfe99ee64b9fb.png
提到计算机，人工智能就不得不提到计算机科学之父、人工智能之父----Alan Mathison Turing艾伦·麦席森·图灵，他是计算机逻辑的奠基者，提出了“图灵机”和“图灵测试”等重要概念。为吊唁他在计算机范畴的卓越贡献，美国计算机协会于1966年设立图灵奖，此奖项被誉为计算机科学界的诺贝尔奖。
1950年图灵提出了图灵测试，他主张用这个测试来判断计算机是否具有“智能”。所谓图灵测试就是隔墙相问，不知道与你对话的是人还是机器。
推荐好文：人工智能风云录之图灵开天香农辟地
https://img-blog.csdnimg.cn/direct/5835328ef3c24318a63b3161d48758fd.png
1956年的夏天,在美国达特茅斯Dartmouth College 的一次集会上, AI 被界说为计算机科学的一个研究范畴, Marvin Minsky (明斯基) ,John McCarthy (麦卡锡) ,Claude Shannon (香农) ,尚有Nathaniel Rochester (罗切斯特)组织了这次集会，他们后来被称为AI的奠基人。
https://img-blog.csdnimg.cn/direct/80be80ab66bb4fa8af4ef602d8aa3917.png
2012年，深度学习鼓起，深度学习（Deep Learning）是机器学习（Machine Learning）的子集，它使用多层神经网络和反向流传(Backpropagation)技术来练习神经网络。该范畴是险些是由Geoffrey Hinton开创的,早在1986年, Hinton与他的同事一起发表了关于深度神经网络(DNNs-Deep Neural Networks)的开创性论文,这篇文章引入了反向流传的概念,这是一种调解权重的算法。
https://img-blog.csdnimg.cn/direct/a18656979ae749a6972d162494e0c50b.png
2016年：DeepMind（14年被谷歌5.25亿美元收购）的AlphaGo在2016年战胜了围棋天下冠军李世石。这是一个历史性的时刻，它标志着人工智能在围棋这个历史久长且复杂度极高的游戏中逾越了人类,对人类对于机器智能和未来大概性的理解产生了深远影响。
https://img-blog.csdnimg.cn/direct/db4c845fec8a4f559f64c7559be7f4f0.png
2022年：OpenAI发布了ChatGPT语言模子，这个模子基于GPT-3框架,其能力在于生成和理解自然语言,甚至能与人类进行深度交谈。ChatGPT的问世是人工智能在自然语言处理处罚范畴的一大里程碑,它开启了人工,智能的新纪元。通过深度学习和大规模数据练习, ChatGPT能理解复杂的人类语言，并生成具有连贯性和创造性的回应。
推荐好文：ChatGPT 中，G、P、T 分别是什么意思？
https://img-blog.csdnimg.cn/direct/884cdb9773b143219dc103f8a00408bb.png
AI绘画简史

2014年：对抗生成网络GAN诞生，AI学术界提出了一个非常重要的深度学习模子,这就是台甫鼎鼎的对抗生成网络GAN(Generative Adversarial Network, GAN)
推荐好文：生成对抗式网络GAN（一） —— 基于传统数学和能量的角度
https://img-blog.csdnimg.cn/direct/da11a14290ad4669b6bed62ceadfb6c4.png
2015年11月: 《Deep Unsupervised Learning usingNonequilibrium Thermodynamics》论文发表扩散模子的开山之作,奠定了扩散模子的理论基础和根本框架
进阶好文：什么是扩散模子？
https://img-blog.csdnimg.cn/direct/49fab0430211439bbe72982b856e22f4.png
2020年6月：如今生成扩散模子的大火，始于2020年加州伯克利大学提出了DDPM (Denoising Diffusion Probabilistic Model)模子，虽然也用了“扩散模子”这个名字，但究竟上除了采样过程的情势有肯定的相似之外，DDPM与传统基于朗之万方程采样的扩散模子可以说完全不一样，这完全是一个新的起点、新的篇章。
2021年: OpenAI开源了新的深度学习模子CLIP (Contrastive Language-Image Pre-Training)，当时开始进的图像分类人工智能。CLIP练习AI同时做了两个事情，一个是自然语言理解，一个是计算机视觉分析，是不是有了多模态的味道了哈哈哈。它被计划成一个有特定用途的能力强大的工具,那就是做通用的图像分类, CLIP可以决定图像和笔墨提示的对应水平,好比把猫的图像和猫这个词完全匹配起来。
https://img-blog.csdnimg.cn/direct/d2a975b1632346e29515aaaf75efb045.png
2021年6月：微软发布LoRA论文（Low-Rank Adaptation of LargeLanguage Models）,直译为大语言模子的低阶适应,这是微软的研究职员为相识决大语言模子微调而开发的一项技术。好比，GPT-3有1750亿参数，为了让它能干特定范畴的活儿，必要做微调，但是假如直接对GPT-3做微调，本钱太高太贫苦了。LoRA的做法是,冻结预练习好的模子权重参数,然后在每个Transformer 块里注入可练习的层,由于不必要对模子的权重参数重新计算梯度，以是，大大减少了必要练习的计算量。有能力还是发起看看这篇论文，以后学大模子也必要。
https://img-blog.csdnimg.cn/direct/f7d865c173f442b696e30a4ee354b1f8.png
2022年7月：MidJourney V3上线，Midjourney自发布以来迭代速度非常快。2022年3月V1 发布时仍参考了很多的开源模子；4月、7月和11月分别发布了V2、V3和V4,迭代出了本身的模子优势。当前最新的已经是V6了，总之，每次迭代都是产物功能的飞跃。它可以说是AIGC现象级应用，一年实现1000万用户和1亿美元营收。
https://img-blog.csdnimg.cn/direct/54829758758b4ba09a37d7bb5da43a75.png
2022年8月： Stable Diffusion上线，并开源Stable Diffusion，以开源底层代码的情势在HuggingFace/Github 公开发布。“将AIGC交到数十亿人手中,实现技术民主化"，用户可以在其代码的基础上运行或修改，制作本身的应用程序，向终端用户提供服务。作为稀缺的开源模子，同时有着良好的性能,公测后就受到了广泛的关注和好评，积累了大量用户。
https://img-blog.csdnimg.cn/direct/ebd7540b92ba4028b41d981b352fca47.png
2023年6月: Drag Diffusion论文发布。在此之前，精确和可控的图像编辑是一项具有挑衅性的任务,已经引起了极大的关注。DragGAN实现了一个基于点的交互式图像编辑框架,并以像素级的精度实现了令人印象深刻的编辑结果。然而,由于该方法是基于生成对抗网络(GAN) ,其通用性受到预先练习好的GAN模子能力的上限限定。在Drag Diffusion这项工作中,将编辑框架扩展到扩散模子。通过利用大规模预练习的扩散模子,我们大大改善了基于点的交互式编辑在现实天了局景中的适用性。虽然大多数现有的基于扩散的图像编辑方法是在文本嵌入的基础上工作的,但Drag Diffusion优化了扩散潜势，以实现精确的空间控制。
https://img-blog.csdnimg.cn/direct/0485fe711e214a3b81d5ff628c7466e2.png
AI名词解释

我就主观的精选一些AI前沿的英文名词，便于本身学习理解。
AI（人工智能）：Artificial Intelligence,它是研究、开发用于模仿、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是新一轮科技革命和产业变革的重要驱动气力。
Agent（智能体）：等同于一个设置了一些目的或任务，可以迭代运行的大型语言模子。这与大型语言模子（LLM）在像ChatGPT这样的工具中“通常”的使用方式差异。在ChatGPT中,你提出一个题目并获得一个答案作为回应。而Agent拥有复杂的工作流程,模子本质上可以自我对话,而无需人类驱动每一部分的交互。
Alignment（对齐）：人工智能对齐是指引导人工智能系统的行为，使其符合计划者的长处和预期目的。一个已对齐的人工智能的行为会向着预期方向发展；而未对齐的人工智能的行为虽然也具备特定目的，但此目的并非计划者所预期。
Attention（留意力）：留意力机制是上世纪九十年代，一些科学家在研究人类视觉时，发现的一种信号处理处罚机制。人工智能范畴的从业者把这种机制引入到一些模子里，并取得了成功。在神经网络的上下文中，留意力机制有助于模子在生成输出时专注于输入的干系部分，用来主动学习和计算输入数据对输出数据的贡献巨细。
COT（思维链提示）：Chain-of-thought是一种允许大型语言模子(LLM)在给出最终答案之前通过一系列中央步骤解决题目的技术。思路链提示通过模仿思路的推理步骤诱导模子回答多步骤题目，从而提高推理能力。它允许大型语言模子克服一些必要逻辑思维和多个步骤来解决的推理任务的困难，例如算术或知识推理题目。
Double Descent（双降）：机器学习中的一种现象,其中模子性能随着复杂性的增加而提高，然后变差，然后再次提高。就是说随着模子参数变多，Test Error是先降落，再上升，然后第二次降落。
深度学习中，模子大了好还是小了好呢？ - Summer Clover的回答
https://img-blog.csdnimg.cn/direct/cacb349dc50c4218858e65edaf7b6bfb.png
Embedding（嵌入）：平凡解释就是"猜词"。好比一个游戏中，你的目的是描述一个词，而你的朋侪们要根据你的描述猜出这个词。你不能直接说出这个词，而是要用其他干系的词来描述它。例如，你可以用"外绿内红"、“又大又甜”、“夏天"来描述，让他们猜“西瓜”。这种将一个词转化为其他干系词的过程,就像计算机科学中的"Embedding”，这是一种将对象（如词语、用户或商品)映射到数值向量的技术。这些向量捕捉了对象之间的相似性和关系,就像你在"猜词"游戏中使用干系词描述一个词一样。Embedding的核心属性是把高维的,大概好坏结构化的数据,转化为低维的,结构化的向量。这样做的目的是让机器可以理解和处理处罚这些数据,从而进行有用的学习和推测。
Emergence（涌现）：这是一种现象，当孤立的每个能力被以某种方式突然组织起来的时间，却爆发出很强大的能力。换句话说就是，许多小实体相互作用后产生了大实体, 而这个大实体展现了组成它的小实体所不具有的特性。涌如今整合层次和复杂系统理论中起着核心作用。例如,生物学中的生命现象是化学的一个涌现，量变引起质变。
Fine-Tuning（微调）：微调是迁移学习的一种常用技术。目的模子复制了源模子上撤除了输出层外的所有模子计划及其参数，并基于目的数据集微调这些参数。微调在自然语言处理处罚(NLP)中很常见，尤其是在语言建模范畴。像OpenAI的GPT这样的大型语言模子可以在下游NLP任务上进行微调，以产生比预练习模子通常可以达到的更好的结果。
Generalization ability（泛化能力）：在机器学习中，一个模子的泛化能力是指其在新的、未见过的数据上的表现能力。
Hallucinate（幻觉）：在人工智能的配景下，幻觉是指模子生成的内容不是基于实际数据或与现实显着差异的现象。
Instruction Tuning（指令调优）：机器学习中的一种技术，其中模子根据数据会合给出的特定指令进行微调。
Knowledge Distillation（数据蒸馏）：数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集，使得在这一小数据集上练习出的模子,和在原数据集上练习得到的模子表现相似.数据蒸馏技术在深度学习范畴中被广泛应用,特殊是在模子压缩和模子部署方面。它可以帮助将复杂的模子转化为更轻量级的模子，并能够促进模子的迁移学习和模子集成，提高模子的鲁棒性和泛化能力。
LLM大语言模子（Large Language Model）：大语言模子是由具有许多参数(通常为数十亿或更多权重)的神经网络组成的语言模子,使用自监督学习或半监督学习对大量未标记文本进行练习。
Multimodal（模态）：在人工智能中，这是指可以理解和生成多种类型数据（如文本和图像）信息的模子。
Parameters（参数）：在机器学习中，参数是模子用于进行推测的内部变量。它们是在练习过程中从练习数据中学习的。例如，在神经网络中，权重和偏差是参数。
Prompt Engineering（提示工程）：它是人工智能中的一个概念，特殊是自然语言处理处罚(NLP)。在提示工程中，任务的描述会被嵌入到输入中。提示工程的典范工作方式是将一个或多个任务转换为基于提示的数据集,并通过所谓的"基于提示的学习(prompt-based learning) "来练习语言模子。
RLHF（基于人类反馈的强化学习）：Reinforcement Learning from Human Feedback在机器学习中，人类反馈强化学习（RLHF）或人类偏好强化学习是一种直接根据人类反馈练习"嘉奖模子"并将该模子用作嘉奖函数以使用强化学习优化署理策略的技术。
Reinforcement Learning（强化学习）：它是机器学习中的一个范畴,强调如何基于环境而行动,以取得最大化的预期长处。强化学习是除了监督学习和非监督学习之外的第三种根本的机器学习方法。
Vector Database（向量数据库）：向量数据库(Om-iBASE)是基于智能算法提取需存储内容的特征,转变成具有巨细界说、特征描述、空间位置的多维数值进行向量化存储的数据库,使内容不仅可被存储，同时可被智能检索与分析。
小白从0-1必看5篇资料

01.人工智能时代已经开始 | 盖茨条记
预计用时7分钟
这篇是去年盖茨对于OpenAI所做给予了很高的评价，大佬们都纷纷了局了，我们庶民百姓也要跟上脚步啊，未来不是AI淘汰我们，而是会使用AI的人来淘汰我们。
https://img-blog.csdnimg.cn/direct/e2b4b898cf1048ba901aec056f0b6ee2.png
02.AI狂飙的时代，人尚有代价吗？
预计用时1个小时
个人以为很有必要读，同时可以做条记，因为高朋很有水平，认知很高，并且对于主持人人的题目都很好的回答了。主要包括：ChatGPT的革命性，就业市场的打击方式，人的存在危急，人的代价体系转移，代价体系转移的进程，平凡人应该怎么办。
https://img-blog.csdnimg.cn/direct/cbd16c5143f9442cae8ca121d21689e0.png
https://img-blog.csdnimg.cn/direct/37ed10f9673f47f4b668c12d2d63bf2b.png
03.【渐构】万字科普GPT4为何会颠覆现有工作流；为何你要关注微软Copilot、文心一言等大模子
预计用时50分钟
先容了ChatGBT的底层原理、练习方式、未来影响和应对方法，up讲的平凡易懂，而且逻辑很清晰，剖析的很perfect，同时还强调了其不是搜刮引擎和聊天机器人的区别，以及其对社会的影响和未来的竞争力。
https://img-blog.csdnimg.cn/direct/c0343434cff24aa3bd664e654ab241b5.png
https://img-blog.csdnimg.cn/direct/dcd9d23289d74fcc9af57fd57c5ec17e.png
https://img-blog.csdnimg.cn/direct/e6ac8f7b1c8d4454a699d0dadeb3f35d.png
04. 独家 | 解析Tansformer模子—理解GPT-3, BERT和T5背后的模子（附链接）
预计用时10分钟
https://img-blog.csdnimg.cn/direct/d33cfb0671d6419aab1b53038a4ecb38.png
05.OpenAI：GPT最佳实践（明白话编译解读版）
预计用时40分钟
这是一个偏向使用实践性的文章，渴望各人在使用过干系产物（会科学的就用ChatGPT，Claude，不会的用文心，智谱，讯飞星火这种都可）才学习，这样效果更佳，感触更深。OpenAI 发布了《GPT 最佳实践》官方文档，先容与 ChatGPT 交互的技巧和用例。但文档以平凡易懂的英语写成，但缺乏中文版本，因此未来力场团队进行了重新编译并增补了更容易理解的用例。六个核心提示策略包括：清晰指令、添加细节、角色扮演、使用分隔符号、提供步骤和举例说明。
https://img-blog.csdnimg.cn/direct/177fdcd2faf546a1b2e2c13755241128.png
初学者进阶必读8篇资料

OpenAI大牛Andrej Karpathy（OpenAI创始团队成员，原特斯拉AI部分负责人）刚在BUILD2023大会上做了这个主题演讲 “State of GPT”，具体讲述了如何从一个基础模子练习成ChatGPT的过程。平凡易懂，内容出色至极！
原地址：https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2
B站upWeb3天空之城精翻：https://www.bilibili.com/video/BV1ts4y1T7UH/
总结

例如：以上就是今天要讲的内容，本文仅仅简朴先容了pandas的使用，而pandas提供了大量能使我们快速便捷地处理处罚数据的函数和方法。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

AIGC从入门到入坑01（初学者适用版）