每日AIGC最新进展(70):MIT提出组合图像天生模型、纽约州立大学提出拓扑感 ...

打印 上一主题 下一主题

主题 868|帖子 868|积分 2604

Diffusion Models专栏文章汇总:入门与实战
  Progressive Compositionality In Text-to-Image Generative Models

本研究探讨了文本到图像天生模型在理解对象和属性之间的组合关系方面的挑战,尤其是在复杂场景中。尽管现有的扩散模型在图像合成方面表现出色,但它们在天生包罗多种对象及其属性的连贯场景时仍存在问题,如属性绑定错误和对象关系不当。为了解决这些问题,研究者们提出了一种新的方法,结合了大型语言模型(LLMs)和视觉问答(VQA)系统,构建了一个名为CONPAIR的对比数据集,其中包罗15,000对高质量的对比图像。这些图像在视觉表现上仅存在细微差别,并覆盖了多种属性种别,特别是复杂和自然场景。通过引入EVOGEN,一种多阶段的对比学习课程,研究者们盼望提升扩散模型的组合理解能力,并在多个组合任务的基准

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

飞不高

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表