用户名
Email
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
帖子
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
人工智能
›
人工智能
›
各种笔墨生成图片的AIGC模子(openAI、谷歌、stable、Mi ...
各种笔墨生成图片的AIGC模子(openAI、谷歌、stable、Midjourney等) ...
北冰洋以北
论坛元老
|
2024-8-19 12:31:14
|
显示全部楼层
|
阅读模式
楼主
主题
1880
|
帖子
1880
|
积分
5640
1 前言
AIGC
,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。比方AI文本续写,笔墨转图像的AI图、视频等。
本文重要形貌笔墨生成图片的模子。而且现在扩散模子(Diffusion Models)盛行,所以下面列的大部门是基于扩散模子的,而基于GAN(GenerativeAdversarialNetworks,中文叫生成式对抗网络)的较少。
笔墨生成图片示比方下:
模子汇总如下,时间以论文(arxiv)的时间为主:
模子
公司或机构
时间
备注
DALL
·
E
openAI
2021年2月
dVAE
GLIDE
openAI
2022年3月
引导扩散(guided diffusion)
DALL
·
E2
openAI
2022年4月
unclip、扩散模子
Imagen
google
2022年5月23日
扩散模子
Parti
google
2022年6月
ViT-VQGAN
Stable Diffusion
Stability AI
2022年4月
开源
Midjourney
Midjourney
2022年3月
未公开技术
Make-A-Scene
Meta(facebook)
2022年3月
ERNIE-ViLG 2.0
百度
2023年3月
扩散模子
CogView
清华
2021年11月
VQ-VAE
CogView2
清华
2022年5月
VQ-VAE
Disco Diffusion
Accomplice
2021年10月
2 openAI
2.1 DALL
·
E:
DALL-E还没有使用扩散模子,使用的dVAE(discrete variational autoencoder离散变分自动编码器)。
详见:DALL·E:OpenAI第一代文本生成图片模子
DALL·E:OpenAI第一代文本生成图片模子_AI强仔的博客-CSDN博客
2.2 GLIDE
DALL-E 的参数量是 120 亿,而 GLIDE 仅有 35 亿参数。GLIDE指 Guided Language to Image Diffusion for Generation and Editing 。
在新模子 GLIDE 中,OpenAI 将引导扩散(guided diffusion)应用于文本生成图像的问题。起首该研究训练了一个 35 亿参数的扩散模子,使用文本编码器以自然语言形貌为条件,然后比力了两种引导扩散模子至文本 prompt 的方法:CLIP 引导和无分类器引导。通过人工和自动评估,该研究发现无分类器引导能够产生更高质量的图像。
论文地点:《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》https://arxiv.org/pdf/2112.10741.pdf
2.3 DALL·E 2
DALL·E 2:
虚线上面部门是CLIP。虚线之下是我们文本到图像生成过程,一个CLIP text embedding输入到autoregressive大概扩散模子(prior部门)来生成一个image embedding,然后这个embedding输入到扩散模子decoder,生成终极的图像.
详见:
DALL·E 2 :OpenAI第二代文本生成图片模子(unCLIP--基于CLIP的文本生成图像模子)
DALL·E 2 :OpenAI第二代文本生成图片模子(unCLIP--基于CLIP的文本生成图像模子)_AI强仔的博客-CSDN博客
3 Google
3.1 Imagen
使用了一个笔墨转图片的diffusion模子,然后使用了2个超分diffusion模子。
3.2 Parti
Parti,全名叫「Pathways Autoregressive Text-to-Image」,是谷歌大脑老大Jeff Dean提出的多任务AI大模子蓝图Pathway的一部门。
Parti是文本-图片的序列到序列模子,包括编码器息争码器。
使用 ViT-VQGAN。
4 Stability AI
独立研究机构Stability AI成立于2020年,背后出资人是数学家,计算机科学家,著名投资人莫斯塔克(Emad Mostaque)。
Stable Diffusion让用户使用消费级的显卡便能够迅速实现文生图。Stable Diffusion 完全免费开源,所有代码均在 GitHub 上公开,任何人都可以拷贝使用。
4.1 Stable Diffusion(LDM)
Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模子,LDMs)的文图生成(text-to-image)模子。出自《High-Resolution Image Synthesis with Latent Diffusion Models 》https://arxiv.org/pdf/2112.10752.pdf。
模子latent diffusion models (LDMs)是两阶段的。第一部门就是下面左半部门(赤色),对图片举行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部门还是扩散模子(diffusion与denoising),中间绿色部门。此外引入了cross-attention机制,下图右半部门,方便文本大概图片草稿图等对扩散模子举行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。
详见stable diffusion(LDM)--图片生成模子_AI强仔的博客-CSDN博客
5 MidJourney
Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。Midjourney 正式团队成员十分精简,共 11 人。除了 CEO 之外,有 8 位研究与工程师,2 位财务与法务。
现在接纳 SaaS 订阅制模式,代价为 10 – 60 美元/月。
Midjourney 最有力的竞争对手是 Stability.AI,与 Midjourney 的闭源不同,其模子 Stable Diffusion 因开源模式受到了广泛关注。
6 Meta(facebook)
6.1 Make-A-Scene
可以在用户创作的粗略草图的根本上,联合文本提示生成具象的图像,纵然用者可以通过草图控制终极图像的详细结果。
论文:https://arxiv.org/pdf/2203.13131.pdf
7 百度
7.1 ERNIE-ViLG 2.0
百度文心一言文本生成图像模子。
ERNIE-ViLG 2.0是一个大规模中文-图像扩散模子。
参见
ERNIE-ViLG 2.0:百度文心一言文本生成图像模子:
ERNIE-ViLG 2.0:百度文心一言文本生成图像模子_AI强仔的博客-CSDN博客。
8 清华大学
8.1 CogView
CogView: Mastering Text-to-Image Generation via Transformers。清华大学唐杰团队出品。
使用VQ-VAE将图像压缩为token序列特征,可以输入到transformer中举行生成训练。
论文:https://arxiv.org/pdf/2105.13290.pdf
8.2 CogView2
cogview2来提升cogview的结果,这次的结果也对标DALL-E2。相比cogview,cogview2接纳分层Transformer以及并行自回归的方式举行生成,并且也训练了国产跨模态的生成模子CogLM.
论文:https://arxiv.org/pdf/2204.14217.pdf
9 Disco Diffusion
Disco Diffusion具有一个强大的开源 CLIP-Guided Diffusion 模子,可以创建详细、逼真的图像。上线于2021年10月29日,由Accomplice开发,Accomplice是一家创立于2016年的公司,致力于帮助每个团队和个人找到适合他们的 AI 驱动的图像工作流程。
开源,免费。Disco Diffusion
10 Tiamat
国内首家 AI 生成技术服务商「Tiamat」。
青柑,Tiamat创始人、CEO。00后创业者,毕业于上海科技大学计算机科学与技术专业。于2021年创立生成式AI平台Tiamat,专注AI图像生成领域的应用办理方案。将科技与技术联合的深刻理解付诸实践,致力于通过人工智能生成技术,拓阔人类想象力界限。
11 参考
Midjourney:AIGC现象级应用,一年实现1000万用户和1亿美元营收 :
Midjourney:AIGC现象级应用,一年实现1000万用户和1亿美元营收_产物化_技术_Discord
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
北冰洋以北
论坛元老
这个人很懒什么都没写!
楼主热帖
一零零七、Docker快速入门
超融合,变了?
Linux基础篇(6)---》常用命令大全(网络 ...
鸿蒙最新功能及承载设备详解:HarmonyO ...
作为开发人员,您应该熟悉的 7 个 Java ...
代码审计(Java)——WebGoat_Authentica ...
Kubernetes-namespace
如何快速而优雅的解决问题(提问的智慧 ...
kubernetes之Ingress发布Dashboard(二) ...
零代码,让业务人员实现应用创造自由 ...
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
SQL-Server
程序人生
快速回复
返回顶部
返回列表