【国产AI绘图】快手把“可图”大模子开源了,这是一款支持中文的SDXL模子
Kolors 是由 Kuaishou Kolors 团队(快手可图)开发的基于潜伏扩散的大规模文本到图像生成模子。经过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面,与开源和专有模子相比都具有明显优势。此外,Kolors 还支持中文和英文输入,在明白和生成中文特定内容方面表现出色。更多详情,请参阅本技能报告。https://i-blog.csdnimg.cn/direct/1fbc202c8f534a22aa412349488b2670.png
在SD3中采用了T5来实现文本和图像之间的转换,而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模子采用DiT的架构,它则继续相沿sdxl的vae架构,估计DreamBooth和Lora稍加修改就可以适配它的微调
人工评估
在人工评估方面,我们约请了 50 位图像专家对不同模子生成的结果举行比力评估。专家们根据三个标准对生成的图像举行评分:视觉吸引力、文本诚实度和总体满意度。在评估中,Kolors 的总体满意度得分最高,在视觉吸引力方面也明显领先于其他模子。
Model总体满意度均匀值视觉效果均匀值文字诚实度均匀值Adobe-Firefly3.033.463.84Stable Diffusion 33.263.504.20DALL-E 33.323.544.22Midjourney-v53.323.684.02Playground-v2.53.373.734.04Midjourney-v63.583.924.18Kolors3.593.994.17 机器评估
我们利用 KolorsPrompts 的 MPS(多维人类偏好分数)作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。
ModelsOverall MPSAdobe-Firefly8.5Stable Diffusion 38.9DALL-E 39.0Midjourney-v59.4Playground-v2.59.8Midjourney-v610.2Kolors10.3 https://i-blog.csdnimg.cn/direct/2e84ddd6b28645969256f29ec3a4eb32.png
https://i-blog.csdnimg.cn/direct/a41f27d11a5a4f48a68550bdd30372ef.png
https://i-blog.csdnimg.cn/direct/52ff6e2b4c3e40aabdbc012f030dffa7.png
Quick Start
要求
[*]Python 3.8 或更高版本
[*]PyTorch 1.13.1 或更高版本
[*]Transformers 4.26.1 或更高版本
[*]建议利用CUDA 11.7 或更高版本
版本库克隆和依靠安装:
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
Weights 下载:
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
推理
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# 图片将保存至 "scripts/outputs/sample_test.jpg"
本地测试结果
https://i-blog.csdnimg.cn/direct/32d91854594f4e2c9e01d95638ec950d.png
感谢各人花时间阅读我的文章,你们的支持是我不断前进的动力。期望将来能为各人带来更多有代价的内容,请多多关注我的动态!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]