文生图开源社区迎来巨大突破:比肩Midjourney-v6的开源文生图大模子来了!
7月6日,快手高级副总裁、主站业务与社区科学负责人盖坤(于越)活着界人工智能大会(WAIC)上公布,快手旗下的文生图大模子可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,天收效果比肩Midjourney-v6程度,支持长达256字符的文本输入,具备英文和中文写字本领。现在,可图(Kolors)已在Huggingface平台和GitHub上线,包罗模子权重和完备代码,供个人开发者免费使用。
- 官网所在:
https://kwai-kolors.github.io/
- Github 项目所在:
https://github.com/Kwai-Kolors/Kolors
- Huggingface模子所在:
https://huggingface.co/Kwai-Kolors/Kolors
- 技能陈诉所在:
https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
在迩来的智源FlagEval文生图模子评测榜单中,可图(Kolors)依附其良好体现,主观综合评分举世第二,仅次于闭源的DALL-E 3。尤其在主观图像质量上,可图(Kolors)体现突出,显着优于其他开源和闭源模子,评分排名第一。
图1. 智源FlagEval评测榜单
可图(Kolors)使用了基于U-Net架构的隐空间扩散模子,并创新性地引入了大语言模子举行文本表征。这使得可图(Kolors)具备强大的复杂长文本明白本领,而且具备中英文笔墨天生本领。同时,通过两阶段渐进练习战略(概念学习和美感提升),可图(Kolors)在图像美感和质量上到达了国际领先程度。
可图(Kolors)开源短短几天,在Github已劳绩2k star,Huggingface模子下载热榜第一。引发国表里开发者广泛热议。
一、可图的技能上风
1.1 大模子助力复杂语义明白
与当前使用英文CLIP作为文本编码器的文生图模子差别,可图(Kolors)使用了大语言模子ChatGLM3举行中英文文本表征。文本提示词长度达256字符,远超CLIP的77字符。
在大语言模子的加持下,可图(Kolors)显现出强大的复杂文本明白本领。如图2所示,面对DALL-E 3的经典提示文本,使用GLM的模子可以大概精确绘制多主体(如小贩和女子),而且画面中包罗了全部元素(如满月、电话等)。针对文生图模子常见的颜色肴杂标题,使用GLM后多种颜色的服饰与多主体可以大概精确对应。
图2. 复杂语义明白本领
同时,与DALL-E 3类似,可图团队对海量练习数据图像举行重打标来天生精致化文本形貌。对比了多个开源多模态大语言模子,选择了效果相对较好的CogVLM举行打标。针对多模态大模子无法辨认特定的概念,练习过程中接纳肴杂形貌的方式:50%用原始文本,50%用合成的文本。这种方法在SD3发表前便已应用。
可图(Kolors)的一大亮点是其笔墨天生本领,特殊是中文写字。可图团队专门构建了一个覆盖五万余个常用汉字的中文写字数据集,包罗合成数据以及真实数据。只管DALL-E 3和SD3支持英文笔墨天生,但可图(Kolors)是第一个原生支持中文笔墨天生的文生图模子(无Control逻辑)。如图3所示,可图(Kolors)可以大概精确绘制简单以致结构复杂的汉字,且笔墨与配景之间的贴合感弱。同时,可图(Kolors)也支持英文笔墨天生,并蕴含肯定的计划美学与创意。
图3. 中英文笔墨天生本领
别的,面对SD3的超高难度复杂提示,可图(Kolors)依然体现精彩,精确绘制了对应的数量、位置、颜色、英文、中文和数字等多种属性。
图4. 超高难度的复杂文本依照本领
1.2 练习战略优化显现拍照级美感
可图(Kolors)在主观图像质量方面的良好体现,告急得益于其练习战略的优化。可图(Kolors)将模子练习分别成两个关键阶段:概念学习与质量微调。在概念学习阶段,可图(Kolors)使用了数十亿图像文本对举行练习,覆盖了广泛实体概念。在质量微调阶段,接纳了更为精致的数据筛选机制,从海量数据中精选出数百万张兼具高质量与高美感的图像,用于对模子举行精致调解。别的,可图(Kolors)还提出了全新的加噪战略,该战略针对高分辨率图像的特性举行了优化,有用提升了模子在天生高分辨率图像时的稳固性。这一系列练习战略的优化步调大幅提升了模子的出图质量和美感。如图5所示,通过对比模子在高质量微调前后的效果,可以直观地感受到这种改进所带来的积极影响。
图5. 质量微调前后对比图
别的,如图6所示,可图(Kolors)在人像、修建、动物、超实际、风格化、中国元素等多个类目均有精彩体现。更多案例详见技能陈诉。
图6. 可图(Kolors)天生图像展示
二、模子评测
为了主观评测文生图模子的天生本领,快手可图团队提出一个新的文生图评测聚集KolorsPrompts,涵盖了14个垂类并归纳出12个挑衅项。模子针对每个prompt分别天生4幅图像,并约请约50名专业评测职员对每幅图像举行5次打分,评估维度包罗综合满足度、图像质量、图文干系性三个维度。从图7中可以看出,可图(Kolors)在综合满足度到达Midjourney-v6程度,特殊在图像质量上,可图(Kolors)对比现在开源和闭源模子上风显着,这与智源的评估效果同等。
图7. KolorsPrompts评测集分布环境和人工评测效果
同时,接纳快手CVPR2024最新提出的MPS (Multi-dimensional Human preference Score) 机评指标来举行模子评估。可图(Kolors)也取得了最高MPS分数,这与人工评估的指标同等。
三、应用案例精选
现在,可图文生图大模子的本领已经广泛落地到快手的卑鄙业务中,包罗AI玩评、主站魔表、快影等多个场景。快手在本年5月31日完成可图大模子的对外开放,支持文生图和图生图两类功能,已上线多种风格。现在可图大模子的各项功能已经集成至可灵AI中,平凡用户可以通过可灵AI官方网站和可图大模子微信小步调免费使用各项功能。
可灵AI官网链接(点击文末“阅读原文”,即可直达):
https://klingai.kuaishou.com/
👇点击下图,即可跳转至“可图大模子”小步调,快来体验吧!
应用实践 1:IP定制
使用Dreambooth & Lora实现模子微调和IP定制。下图为快手祥瑞物小快和招财鸭IP。
应用实践 2:AI人像
人像ID保持,支持多种风格化人像,增长玩法意见意义性。
应用实践3:假造试衣
开放域假造试穿出现出业务落地的技能可行性,千人千面的商品素材天生今后将成为大概。
四、未来推测
快手此次开源了具备强大复杂语义明白和高质量图像天生本领的基座模子可图(Kolors),并操持连续开源可图(Kolors)的干系应用,如ControlNet等。现在开源社区反响热烈,已经有开发者提供了加快、ComfyUI等应用。这一系列开源项目标产生,将为开发者提供更加全面和多样化的工具和资源,进一步丰富文生图范畴的开源生态,为探索更多的应用场景和技能创新提供便利,共同推动文生图技能的进步和遍及。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |