一文读懂AIGC文生图系列发展近况

打印 上一主题 下一主题

主题 825|帖子 825|积分 2475

文生图(Text-to-Image Generation)是一种通过文本生成图像的技能,其发展进程可以追溯到早期的计算机视觉和自然语言处理研究。这一技能的历史可以分为几个关键阶段: ① 早期探索(20世纪60年代-20世纪90年代);②基于统计模子的方法(2000年代);③深度学习的崛起(2010年代);④大规模预练习模子(2020年代)。

文生图技能重要基于深度学习和自然语言处理技能。它通过分析输入的文本形貌,提取关键信息,然后利用生成对抗网络(GAN)或卷积神经网络(CNN)等深度学习模子生成相应的图像。这种技能的出现,使得人们可以通过简朴的文本形貌,快速生成高质量的图像,大大提高了内容创作的服从。
零、一些事件


2022年8月,游戏计划师 Jason Allen 依附 AI 绘画作品《太空歌剧院》得到美国科罗拉多州展览会“数字艺术/数码拍照“竞赛单元一等奖,“AI 绘画”引发全球热议。

2022年12月8日,在拍卖会上,由百度文心一格续画的民国才女陆小曼未尽稿联同著名海派画家乐震文补全的同名画作《未完:待续》,以110 万元落槌成交。这是全球首次AI 山川画作的成功拍卖,睁开了数字艺术品拍卖的新叙事。

一、发展历史


1 早期探索

GANs(生成对抗网络):2014年,Ian Goodfellow提出了GANs的概念,这是AIGC领域的一个重要底子。
DeepDream:2015年,Google的DeepDream项目展示了AI如何生成梦幻般的图像,这是早期AI视觉艺术的一个例子。
2 技能突破

DALL-E:2021年,OpenAI发布了DALL-E,这是一个能够根据文本形貌生成图像的AI模子,标记着AIGC在图像生成方面取得了显著进步。

3 开源与社区推动

Stable Diffusion:2022年,Stability.ai发布了Stable Diffusion,这是一个开源的AI图像生成模子,迅速在社区中流行,推动了AIGC技能的普及和应用。
ControlNet:2023年初,ControlNet技能的出现,答应用户对AI生成的图像进行更精细的控制,进一步提拔了AIGC的实用性和创造性。
4 商业化与应用

AI杂志封面:2022年,OpenAI与时尚COSMO杂志相助,利用AI生成了首个AI杂志封面,展示了AIGC在时尚计划领域的应用。
AI绘画获奖:2023年,AI生成的作品《虚妄记忆:电工》在索尼世界拍照奖中获奖,这是AIGC在艺术领域得到认可的标记。
5 社会影响与伦理考量

AI生成的肖像:随着AIGC技能的发展,AI生成的肖像和艺术作品开始引起公众和艺术界的关注,同时也引发了关于版权、伦理和社会影响的讨论。

这些技能节点和代表性作品不光展示了AIGC技能的发展进程,也反映了AIGC在各个领域的应用潜力和对社会的深远影响。随着技能的不断进步,预计未来还会有更多创新的应用和作品出现。
二、产品介绍


Disco Diffusion

2021年10月,谷歌发布的 Disco Diffusion 模子以其惊人的图像生成效果拉开了属于扩散模子的 AIGC 时代序幕。

但它依然存在两大题目:


  • 图像精美但细节不够深人;
  • 生成耗时过长(也是一直以来的痛点)。
但其图像质量碾压以往众多绘画模子,达到普通人无法企及高度,这才让 AI绘画真正迈入生产工具行列。
DALL-E

2021年1月,OpenAI 推出了 DALL-E 模子。“DALL-E”这个名字源于西班牙著名艺术家 Salvador Dali 和广受接待的皮克斯动画机器人“Wall-E”的组合。2022年7月,DALL-E2 进入测试阶段,可供白名单中的用户利用。同年9月28日,OpenAI 取消了白名单的要求,推出了任何人都可以访问而且利用的开放测试版。

和上一代相比,DALL•E 2 更神奇,简直就是直接从二次元简笔画走向超高清大图:分辨率提拔四倍,从256x256 提拔到了 1024 × 1024,而且生成图像的正确率也更高!
Imagen

2022年5月25日,谷歌公布推出了一款新的 Al 系统Imagen,可以将文字形貌转化为传神的图像的人工智能技能,但并未公开测试。自推出以来,Imagen 一直被与 OpenAI 的 DALL-E 2、Stability Al 的 Stable Diffusion 相比力,但不同的是,谷歌一直没有将该系统向公众开放。
2022年11月3日,Imagen 首次开放测试。
Midjourney

拓展阅读:深入浅出剖析典型文生图产品Midjourney
2022年7月,一个小团队推出了公测的 Midjourney,打破了 AIGC 领域的大厂垄断。作为一个精调生成模子,以聊天机器人方式部署Discord,目前有980万用户,前面讲到的《太空歌剧院》即出自于它。
固然 DALL.E 旨在生成任何你能想象到的东西,Midjourney 默认偏向于创建具有绘画性、美观性的图像。如果有选择,Midjourney 更喜欢用互补的颜色、光影的艺术运用、清楚的细节以及具有令人满足的对称性或透视性的构图来创建图像。用其创始人的话来说「我们只希望它易于利用一一我们希望图片看起来不错」。
Stable Diffusion

Stable diffusion 则真正改变了游戏规则,其背后的美国初创公司Stability.AI 为其提供大量算力,并于2022年8月完全开源其算法和预练习模子。它基于 Latent Diffusion Models,将最耗时的扩散过程放在低纬度隐变量空间,大大降低算力需求以及个人部署门槛。
开源社区 HuggingFace 很快对其适配,让个人部署简朴化;开源工具 Stable-diffusion-webui 则将多种图像生成工具集于一体,甚至可在网络端微调模子,练习个人专属模子,广受好评,在Github 得到3.4万星,让扩散生成模子彻底出圈,从大型服务走向个人部署。(还有厥后更为便捷的ComfyUI工作流搭建方式)


Civitai

Civitai的注册用户超300万,每月独立访问用户在120—130万左右,其影响力可见一斑。
利用地点:https://civitai.com/

Civitai的重要特色功能包括:

  • 按照关键字搜索文本生图模子,,同时会详细介绍这些模子利用的练习数据以及开源地点。
  • 图片搜索,可以按照城市、运输、盔甲、机器人等关键字搜索图片,而且多数生成的图片都附带详细的提示词教程和额外的叠加效果。
  • 提示词、工具配置等教程,作者会分享他生成图片的所有参数设置,例如,图片的采样器、尺寸、粒子、制作心得等,非常详细几乎涵盖所有步调。
  • 支持用户在该平台进行生玉成新内容,或根据选择的作品进行二次创作。
简朴来说,可以把Civitai看成文生图界的“微博”,在这里你可以找到很多有用的模子、图片和教程,而且可以及时查看效果或本身亲手尝试。
Liblib

三、原理剖析


四、应用场景

1. AIGC对财产和就业的影响


1)新兴岗位的出现

AI绘画师:随着AI绘画工具的普及,出现了专门利用AI技能进行艺术创作的岗位。
AI内容策划师:负责利用AIGC技能生成内容,并策划如何将这些内容融入营销计谋或产品开发中。
AI模子练习师:专注于练习和优化AIGC模子,以提高内容生成的质量和服从。
AI伦理顾问:随着AIGC技能的发展,对于AI伦理和社会责任的考量日益重要,因此出现了专门负责引导AIGC应用的伦理顾问。
2)组织结构的变化

跨学科团队:AIGC的应用必要跨学科的相助,如计划师、步调员、数据科学家和内容创作者等,这导致了组织结构的多元化。
敏捷工作流程:AIGC技能使得内容创作更加速速和灵活,推动了组织工作流程的敏捷化和迭代速率的加速。
远程工作和协作:AIGC工具的普及使得远程工作和全球协作成为可能,改变了传统的工作模式和团队结构。
3)就业影响
技能需求变化:AIGC技能的应用要求从业者具备新的技能,如AI工具的利用、数据分析能力等。
就业机会的增加:AIGC为内容创作、计划、营销等领域创造了新的就业机会。
传统岗位的转型:一些传统岗位可能因为AIGC技能的应用而必要转型,例如传统的插画师可能必要学习如何与AI工具相助。
4)教诲和培训
AIGC相关课程:教诲机构开始提供AIGC相关的课程,以满足市场对新技能的需求。
终身学习:随着AIGC技能的快速发展,从业者必要持续学习和顺应新技能。
5)法律和伦理
版权和知识产权:AIGC技能的应用引发了关于版权和知识产权的新题目,必要法律专业人士来办理。
伦理监管:随着AIGC技能在社会中的广泛应用,对伦理监管的需求也在增加。
这些影响表明,AIGC技能正在重塑财产格局,推动就业市场的转型,同时也对教诲和培训体系提出了新的要求。企业和个人都必要顺应这些变化,以充实利用AIGC带来的机会。
2. AIGC在各个财产的商业版图


AIGC在影视与传媒、计划工具、营销、电商、服装模特与时尚计划、动漫与游戏、家装与建筑计划等领域的实践案例。
五、发展趋势

1. 技能进步方向

多模态融合: 未来的AIGC技能将更加注重多模态数据的融合,实现文本、图像、音频和视频等多种内容形式的团结生成。
智能反馈和自顺应优化: 通过引入用户的反馈,AIGC模子可以不断优化生成内容,提高质量和多样性。
新型生成模子: 基于能量函数的生成模子和结合图神经网络(GNN)的新型模子将成为研究热门,有望进一步提拔生成内容的稳定性和多样性。
2. 应用前景

娱乐和创意财产: AIGC将在影视制作、游戏计划、音乐创作等领域继续发挥重要作用,推动创意财产的发展。
教诲和学习: AIGC可以根据学生的学习情况生成个性化讲义和辅导内容,提高讲授效果。
医疗和康健: 在药物研发、疾病诊断和个性化治疗方面,AIGC将发挥更大的作用,提高医疗服务的程度和服从。
3. 政策和法规建议

为了促进AIGC技能的康健发展,必要订定相应的政策和法规:
数据隐私保护: 加强对用户数据的保护,防止数据滥用和泄漏。
版权保护: 明确AIGC生成内容的版权归属,保护原创者的权益。
监管机制: 建立有用的监管机制,防范虚伪信息的流传,保障社会稳定。
六、挑战与机会

1. 技能挑战

数据质量和数量: AIGC依赖于大量的高质量数据进行练习,数据的网络和处理成为关键挑战。
算法复杂性: 当前的深度学习模子结构复杂,必要大量的计算资源和时间进行练习。
可解释性和透明性: AIGC的生成过程缺乏透明度,导致内容的真实性和可靠性受到质疑。
2. 伦理和社会影响

版权和知识产权: AIGC生成的内容涉及到版权归属和知识产权保护题目,必要明确的法律规范。
虚伪信息: AIGC可能被滥用于生成虚伪信息,影响社会稳定和公共安全。
就业影响: AIGC的广泛应用可能导致某些工作岗位的流失,带来社会就业结构的变化。
3. 商业化前景

只管面临诸多挑战,AIGC的商业前景广阔:
提高服从和降低资源: AIGC技能可以显著提高内容生产服从,降低人力资源,特别是在重复性劳动中体现突出。
创新商业模式: AIGC催生了新的商业模式,如个性化定制内容、智能广告等,为企业带来更多商业机会。
总结

AIGC作为一种新兴的技能,正在快速改变内容生产和创作的格局。经过多年的发展,AIGC已经在文本、图像、音频和视频等多个领域取得了显著的成就。固然面临诸多挑战,但随着技能的不断进步和应用的持续拓展,AIGC将为各行各业带来更多的创新和厘革。通过公道的政策引导和技能优化,AIGC有望在未来发挥更大的作用,推动社会经济的高质量发展。
参考资料


  • 中国AIGC文生图财产白皮书
  • 文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!
  • AIGC文生图,SD、transfromer

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

海哥

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表