我可以不吃啊 发表于 2024-10-9 23:44:15

【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全

Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段形貌性的文字,就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。
https://i-blog.csdnimg.cn/blog_migrate/41357b10fb7d2101aa320d59424e7c32.png
* prompt
史诗级动漫作品:一位巫师在夜晚的山顶上向暗中的天空施放宇宙咒语,咒语上写着「Stable Diffusion 3」,由五彩缤纷的能量组成
在 SD3 的背后,是庞大的图像-文本对练习数据集。这种模型通常必要通过练习大量的数据,学习怎样将文本形貌转化为图像。
如果你也想练习如许一个 SD 模型,却苦于没有合适的数据集,HyperAI超神经汇总了 10 个优质的图像-文本对数据集,助你打造个性化的图像生成模型。除此之外,小编还在最后分享了 3 个基于不同架构开源的图像生成教程,供大家体验创作。
SD3 开源地址:
https://huggingface.co/stabilityai/stable-diffusion-3-medium
图像-文本对数据集
1
WIT 图像-文本数据集
发布机构:Google
发布时间:2021 年
预估大小:25.2 GB
下载地址:https://go.hyper.ai/yUtLy
WIT 全称 Wikipedia-based Image Text,是一个大型多模态多语言数据集,由 3,760 万个丰富的图像-文本示例的精选集组成。该数据集的规模使其可以用作多模态机器学习模型的预练习数据集。
2
RedCaps 图像文本对数据集
发布机构:密歇根大学
发布时间:2021 年
预估大小:1012.72 MB
下载地址:https://go.hyper.ai/DmgJl
RedCaps 是一个大规模的图像-文本对数据集,数据源自 Reddit,总数达 120 万。这些图片和文本形貌了各种各样的物体和场景。
3
MMDialog 开放域多轮对话数据集
发布机构:北京大学
发布时间:2022 年
预估大小:19.19 GB
下载地址:https://go.hyper.ai/g8NUx
MMDialog 是一个大规模的多模态开放域对话数据集,包含 108 万个完备对话 session,高出 4,000 个对话主题,以及 153 万张非重复图像,每个对话 session 有平均 2.59 张图像。
4
DVQA 图像问答数据集
发布机构:罗彻斯特理工学院
发布时间:2018 年
预估大小:5.42 GB
下载地址:https://go.hyper.ai/MpEAm
DVQA 是一个在问答框架中测试条形图明白的数据集,涵盖了大量通用的柱状图风格,包含 30 万张图像对应的约 348 万个题目答案对。
5
DAQUAR 真实天下图像问答数据集
发布机构:马克斯-普朗克计算机科学研究所
发布时间:2018 年
预估大小:414.12 MB
下载地址:https://go.hyper.ai/7KUwg
DAQUAR 是一个关于图像的人类问答的数据集。该数据集的图像来自于 NYU-Depth v2 数据集,内容都是关于室内场景的 RGBD 图像,其中 795 张用于练习,654 张用于测试。
6
COYO-700M 图像-文本对数据集
发布机构:Kakao Brain
预估大小:30.31 GB
发布时间:2022 年
下载地址:https://go.hyper.ai/eFJe9
COYO-700M 包含了 7.47 亿个图像文本对以及许多其他元属性,网络了 HTML 文档中许多信息丰富的替代文本及其相关图像对。
7
TDIUC 视觉问答数据集
发布机构:罗彻斯特理工学院
预估大小:37.97 GB
发布时间:2017 年
下载地址:https://go.hyper.ai/8Nweu
该数据集是一个视觉问答数据集。数据集包罗来自 MS COCO 和视觉基因组数据集的 160 万个题目及 17 万张图像,可用于评估模型妥当性及推理本领。
8
Visual7W 视觉问答数据集
发布机构:斯坦福大学
预估大小:1.76 GB
发布时间:2016 年
下载地址:https://go.hyper.ai/ZnRQE
Visual7W 是一个图像内容明白的数据集,通过对图像地区的文字形貌和互相之间的关联,举行视觉问答 (Visual Question Answering) 任务,数据集中不仅包含图像本身,还包罗图像地区内容相关的问答。
9
KVQA 问答数据集
发布机构:海得拉巴国际信息技能学院
预估大小:84.45 GB
发布时间:2016 年
下载地址:https://go.hyper.ai/IYGFO
该数据集是一个关于问答的数据集。数据集包含手动验证的 18.3 万个问答对,涉及高出 1.8 万人和 2.4 万张图像。
10
CxC 图像字幕数据集
发布机构:Google
发布时间:2020 年
下载地址:https://go.hyper.ai/as1Fl
该数据集是一个图像字幕数据集,包含 247,315 个人工标志的标注。
图像生成教程
1
InstantID 个性化写真生成 Demo
在线运行:https://go.hyper.ai/Eq4zl
InstantID 是一个基于扩散模型的图像生成办理方案,能实现从单一参考图像到多样化风格化写真的快速生成。只需上传一张自拍,20 秒就能得到定制版 AI 写真。
2
ComfyUI InstantID 工作流在线教程
在线运行:https://go.hyper.ai/HSPr7
ComfyUI InstantID 工作流可以将平凡的人像照片转换成具有高度个性化风格的艺术作品,在风格迁移过程中,算法会将一幅图像的内容与另一幅图像的风格相结合,生成一幅新的图像,既保留了原始图像的内容,又具有了另一幅图像的艺术风格。这种技能被广泛应用于艺术创作、图像处理和视觉结果等领域。
3
ComfyUI Stable Cascade 工作流教程
在线运行:https://go.hyper.ai/lJGLF
该教程为 AI 绘画 ComfyUI Stable Casecade 工作流利用教程,教程已经搭建了好情况,内置了 Stable Cascade 默认文生图工作流,直接将节点连接完成,简化利用流程,2 秒即可出图。Stable Cascade 建立在 Würstchen 架构之上,可以同时保持高质量输出和高效的推理速度。
更多 AIGC 教程,请访问:
https://hyper.ai/tutorials
https://i-blog.csdnimg.cn/blog_migrate/e9a52f2b6e5f764df3db8fef92057a98.png
以上就是HyperAI超神经为大家汇总的 10 个图像-文本对数据集和 3 个文本生成图像教程,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
别的,我们还建立了「Stable Diffusion 教程互换群」,欢迎小伙伴们入群探究各类技能题目、分享应用结果~
扫描下方二维码添加神经星星微信(微信号:Hyperai01),备注「SD 教程互换群」,即可加入群聊。
https://i-blog.csdnimg.cn/blog_migrate/92f8a8437f9b1fd84953efd60b1c63f7.jpeg
最后推荐一个「创作者激励计划」,感爱好的小伙伴扫码即可到场!
https://i-blog.csdnimg.cn/blog_migrate/0126ed664e7bc224e4b227678b6ab55f.png
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础办法,为国内开辟者提供丰富、优质的公共资源,截至目前已经:
* 为 1200+ 公开数据集提供国内加速下载节点
* 收录 300+ 经典及流行在线教程
* 解读 100+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完备的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全