【国产AI绘图】快手把“可图”大模子开源了,这是一款支持中文的SDXL模子 ...

锦通  论坛元老 | 2024-8-21 06:42:31 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1682|帖子 1682|积分 5046

Kolors 是由 Kuaishou Kolors 团队(快手可图)开发的基于潜伏扩散的大规模文本到图像生成模子。经过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面,与开源和专有模子相比都具有明显优势。此外,Kolors 还支持中文和英文输入,在明白和生成中文特定内容方面表现出色。更多详情,请参阅本技能报告。

在SD3中采用了T5来实现文本和图像之间的转换,而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模子采用DiT的架构,它则继续相沿sdxl的vae架构,估计DreamBooth和Lora稍加修改就可以适配它的微调
人工评估

在人工评估方面,我们约请了 50 位图像专家对不同模子生成的结果举行比力评估。专家们根据三个标准对生成的图像举行评分:视觉吸引力、文本诚实度和总体满意度。在评估中,Kolors 的总体满意度得分最高,在视觉吸引力方面也明显领先于其他模子。
Model总体满意度均匀值视觉效果均匀值文字诚实度均匀值Adobe-Firefly3.033.463.84Stable Diffusion 33.263.504.20DALL-E 33.323.544.22Midjourney-v53.323.684.02Playground-v2.53.373.734.04Midjourney-v63.583.924.18Kolors3.593.994.17 机器评估

我们利用 KolorsPrompts 的 MPS(多维人类偏好分数)作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。
ModelsOverall MPSAdobe-Firefly8.5Stable Diffusion 38.9DALL-E 39.0Midjourney-v59.4Playground-v2.59.8Midjourney-v610.2Kolors10.3



Quick Start

要求



  • Python 3.8 或更高版本
  • PyTorch 1.13.1 或更高版本
  • Transformers 4.26.1 或更高版本
  • 建议利用CUDA 11.7 或更高版本
版本库克隆和依靠安装:

  1. apt-get install git-lfs
  2. git clone https://github.com/Kwai-Kolors/Kolors
  3. cd Kolors
  4. conda create --name kolors python=3.8
  5. conda activate kolors
  6. pip install -r requirements.txt
  7. python3 setup.py install
复制代码
Weights 下载:

  1. huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
复制代码

  1. git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
复制代码
推理

  1. python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
  2. # 图片将保存至 "scripts/outputs/sample_test.jpg"
复制代码
本地测试结果

感谢各人花时间阅读我的文章,你们的支持是我不断前进的动力。期望将来能为各人带来更多有代价的内容,请多多关注我的动态!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

锦通

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表