ToB企服应用市场:ToB评测及商务社交产业平台

标题: AIGC-CVPR2024best paper-Rich Human Feedback for Text-to-Image Generati [打印本页]

作者: 天津储鑫盛钢材现货供应商    时间: 2024-8-5 08:33
标题: AIGC-CVPR2024best paper-Rich Human Feedback for Text-to-Image Generati
Rich Human Feedback for Text-to-Image Generation斩获CVPR2024最佳论文!受大模子中的RLHF技能开导,团队用人类反馈来改进Stable Diffusion等文生图模子。这项研究来自UCSD、谷歌等。
在本文中,作者通过标记不可信或与文本不对齐的图像区域,以及解释文本提示中的哪些单词在图像上被歪曲或丢失来丰富反馈信号。 在 18K 生成图像 (RichHF18K) 上收集如此丰富的人类反馈,并练习多模态转换器来自动预测丰富的反馈。 实验结果表明,可以利用预测的丰富人类反馈来改进图像生成,例如,通过选择高质量的练习数据来微调和改进生成模子,大概通过使用预测的热图创建mask来修复有问题的区域。 值得注意的是,除了用于生成收集人类反馈数据的图像(稳定扩散变体)之外,这些改进还推广到了模子(Muse)。
   论文:https://arxiv.org/pdf/2312.10240
  

MOTIVATION


CONTRIBUTION


METHODS

Collecting rich human feedback

数据收集过程


反馈整合


数据集RichHF-18K


数据统计和标注者同等性分析


Predicting rich human feedback

模子架构如图所示,模子基于Vision Transformer(ViT)和T5X模子,灵感来自Spotlight模子架构,但对模子和预练习数据集举行了修改,以更好地适应任务需求。

自注意力模块的使用


模子结构


Experiments

Experimental setup

评估指标


baseline


实验结果

Quantitative analysis

作者展示了他们模子在四个细粒度分数(合理性、对齐度、美学和总体评分)、不可信热图、差别等热图和差别等关键词序列预测方面的预测结果。





Qualitative examples

不合理热图的一些示例预测(图5),此中模子识别了具有伪影/不合理的区域。
以及对于未对准热图(图 6),模子识别了不对应的对象提示。

示例图像的真是分数和预测分数

Learning from rich human feedback

为了确保 RAHF 模子的好处可以或许泛化到生成模子系列中,重要使用 Muse 作为的目的模子来改进,它基于masked transformer architecture,因此与 RichHF 中的稳定扩散模子变体不一样。
使用预测分数微调生成模子(Finetuning generative models with predicted scores)

使用预练习的Muse模子为12,564个提示生成图像。为每张图像预测RAHF分数,并选择每个提示中分数高于固定阈值的图像作为微调数据集。使用选定的图像数据集对Muse模子举行微调。通过新提示生成图像,并让标注者对原始Muse和微调后的Muse图像举行合理性比力,结果表现微调后的Muse模子生成的图像具有显著更少的人工或不合理元素。

使用预测的热图和分数举行区域修复(Region inpainting with predicted heatmaps and scores)

对于每个图像,我们起首预测不可信热图(implausibility heatmaps),然后通过处理热图(使用阈值thresholding和膨胀dilating)创建mask。 Muse 修复应用在mask区域内,以生成与文本提示匹配的新图像。 生成多个图像,并根据我们的 RAHF 预测的最高合理性分数选择最终图像。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4