如何自动化地评估 AIGC 生图的质量?

打印 上一主题 下一主题

主题 532|帖子 532|积分 1596

节前,我们星球组织了一场算法岗技能&口试讨论会,邀请了一些互联网大厂朋侪、参加社招和校招口试的同学。
针对算法岗技能趋势、大模子落地项目经验分享、新手如何入门算法岗、该如何预备、口试常考点分享等热门话题进行了深入的讨论。
合集:
持续火爆!!!《AIGC 口试宝典》已圈粉无数!

AIGC生图须要进行质量评估以确保满意一定标准。这一评估过程非常重要,因其关系到内容的专业性、商业代价以及顾客的满意度。
然而,传统的手动评估方式既耗时又耗力,且容易受到主观毛病的影响,导致评估本钱高昂而结果不佳。目前对基模子的优化结果的全面评测,包含了十多个维度,全部标注须要2~4个人日。如果涉及模子整体结果的迭代,则须要更多的人力投入。
鉴于此,自动化的质量评估方法成为一种急迫需求。通过采用算法和机器学习模子,自动化评估可以快速、准确地执行质量查抄,不仅节流了大量人力资源,还提高了评估的一致性和准确性。自动化评估工具还能实实际时监控和即时反馈,从而提拔整个生产流程的效率和内容的质量
总之,自动化质量评估在提高AIGC生图质量与生产效率方面发挥着不可替代的作用。本文将分享几项最新的研究进展,渴望能给大家带来帮助~
APDD

主要内容

计算视觉美学是计算机视觉范畴中一个非常重要的研究范畴,主要涉及大型数据集练习以及神经网络模子优化,使模子可以或许提供对美学质量的评估。因此,构建图像美学质量评估(IAQA)基准数据集已成为推进这一方向研究的关键条件。然而,现有的数据主要关注图像的总审美得分,而对图像种别和审美属性的研究探索有限。别的,大多数现有的数据集都是在照相范畴创建的,在艺术图像范畴研究不敷。
本项目主要对艺术图像进行美学评估,虽然没有使用文生图模子生成的图像,但是对于图像的美学质量评估提供了一套完整的处理思绪。本项目提出了一个清楚的框架来量化艺术图像中的美学分数;构建了艺术范畴的多属性、多种别绘画数据集,即绘画美学数据集(APDD);提出了一种绘绘图像评估网络(AANSPS),该模子在大多数指标上取得了令人满意的结果,为本方法的有效性进行了验证。
美学评分标准

根据差别的绘画门类(油画、素描、国画)、艺术风格(象征主义、古典主义、浪漫主义、工笔、写意),题材(风景、静物、肖像、花卉和鸟类、山脉和水),我们将APDD数据集分为 24 个差别的艺术种别。

对于每张图进行审美属性的打分,审美属性的来源考虑了如下几个方面:


  • 艺术创作者的一般思维过程。
  • 艺术观察者如何进行分层观察。
  • 评价者的评分方法。
最终界说了艺术图像的10个审美属性。注:并非全部的艺术种别都包含了本文提出的10个审美属性。

APDD数据集

绘画美学数据集(APDD)概况


  • 得到了全球28位专业艺术家和数十名美术生的积极参与。
  • 数据集包括24个差别的艺术种别和10个差别的审美属性。
  • 收集了4985幅画作,此中注释计数凌驾31100个条目。
数据集的收集:


  • 精心挑选了几个专业的艺术网站和机构作为数据来源,以确保艺术图像的广度和多样性。
  • 从艺术门生的作业中挑选了一些审美质量较低的艺术作品。艺术家作品与门生作品比例为3:1。
  • 收集了4985幅画作,涵盖了24个种别,每个种别至少包含200幅图片。作品包括著名艺术家作品和门生作品。该图像数据集的结构旨在为后续的评分注释提供足够的代表性和多样性。
图像标注:


  • 评分团队根据所选的基准图像,开发了一个一致的、客观的评分体系,确保后续的评分工作可以或许遵循统一的标准。
  • 第一阶段由专家评分,耗时15天,为评分运动提供了坚实的理论基础。
  • 第二阶段由24名来自油画、素描和中国画专业的高学历门生评分。第二阶段进展得更快,总共在7天内完成。
  • 将使命分配给对应的评分者,指定艺术种别和所涉及的图像数量,确保APDD数据会合的每个图像至少由6个个体进行评估。
  • 在对全部评分进行综合评估后,我们根据全部注释者的评估计算平均分,最终收集每种属性的总分和单个属性分。
APDD数据集包含10个美学属性,分别为:主题逻辑、创造力、结构与构图、空间与视角、秩序感、光与影、色彩、细节和质感、整体和感情。部分数据,如图所示:

AANSPS模子

本项目提出了一种绘绘图像评估网络AANSPS,并在APDD数据集上练习。

该模子先通过EfficientNet-B4网络提取图像表征。然后将图像特征输入Efficient Channel Attention (ECA) 模块,使用global average pooling (GAP)进行处理。之后进入回归网络,该部分由一个GAP层和三个线性层组成。最后输出美学得分。loss函数使用mse函数。

练习集和验证集的比例为9:1。在练习过程中,将预练习模子加载到总美学评分分支中,并基于APDD的练习集对该分支网络进行练习,得到第一个评分模子。然后,使用第一个评分模子作为新的预练习模子,并分别练习每个属性的评分分支网络。在练习其他属性分支网络时,须要冻结其他评分分支网络的参数。在每个分支网络经过练习后,它将包括之前练习过的属性分支网络。如果连续两轮的loss没有减少,则学习率乘以0.5。一旦全部的属性分支网络都完成了练习,我们就得到了最终的评分模子。
模子评估

本文利用均方误差(MSE)、平均绝对误差(MAE)和斯皮尔曼的秩阶相关系数(SROCC)来评价性能。

本项目的一些局限性:


  • 须要进一步扩大审美分类和属性,更全面地评价审美质量。
  • 增长APDD数据会合的图像数量。
  • 以更详细的语言为美学属性提供注释,增长数据集的易用性。
HPS v2

主要内容

最近的文生图模子可以从文本输入中生成高保真的图像,但这些生成的图像的质量不能通过现有的评价指标进行准确的评估。Inception Score (IS) and Fréchet Inception Distance (FID)被广泛用于生图模子的评估,但是这两个指标并不能很好的反映生成图片是否符合人类偏好。人类的偏好评估是文生图模子中一个重要但有待推进的研究范畴。
本项目构建了一个用人类偏好进行注释的大规模数据集,即Human Preference Dataset v2(HPD v2)。同时还在HPD v2上练习了一个基于偏好预测模子的benchmark,Human Preference Score v2(HPS v2),以测量生成式算法的发展。HPS v2在各种图像分布上比之前的指标评估性能更好,并可用于文生图模子的改进,使其成为一个更好的评估这些模子的方法。
HPD v2数据集

Human Preference Dataset v2(HPD v2)概况:


  • 雇用了50个标注人员和7个质量控制查抄人员,对数据进行注释。
  • 构建了一个大规模的、注释清楚的数据集,此中包含了人类对从文本提示中生成的图像的偏好。
  • HPD v2包含了43.4w个图像对、79.8w个人类偏好选择,使其成为同类数据中最大的数据集。
  • 每对图像包含由差别的模子使用相同的prompt生成的两个图像,并对应一组人类偏好选择。
  • 用于生成图片的prompt,按照风格分类为:动画、概念艺术、绘画和照片。
该数据集解决了在以前的数据会合出现的毛病题目:


  • 数据集多样性:HPD v2包含了从9个最近的模子中生成的图像,以及来自COCO数据集的真实图像。
  • 清洗prompt:用户编写的prompt,通常遵循一个特定的形貌结构加上几个风格词。此中风格词经常包含自相抵牾的内容,使用户很难明白,风格词也有高度的偏见。为了解决这种毛病,本文使用ChatGPT往复除风格词,并将prompt重写成一个更清楚的句子。
HPD v2的prompt来自于COCO Captions、LAION、DiffusionDB三个数据集,此中DiffusionDB的prompt被chatgpt进行了清洗。结果如下:

图像来源:


  • 使用差别的模子和相同的prompt来生成图像。
  • 除了生成的图像,还添加了COCO数据会合对应的真实图像。
  • 练习集包含来自4个模子的生成图片以及COCO数据集的真实图像。
  • 测试集包含9个模子的生成图像以及COCO数据集的真实图像。这5个另加的模子使我们可以或许验证评估模子的泛化能力。
HPD v2的处理流程如下。首先收集HPD v2,然后在其上练习一个偏好预测模子,即Human Preference Score v2(HPS v2):

HPS v2 数据集

CLIP是一个将图像和文本对齐到相同的embedding空间的模子。它有一个图像编码器来将一个图像编码成一个视觉特征,和一个文本编码器来将一个caption编码成一个文本特征。视觉特征和文本特征之间的余弦相似度反映了输入图像和caption之间的对齐程度。然而,原生的CLIP并不能很好地反映人类偏好。
通过使用HPD v2微调CLIP,得到了Human Preference Score v2(HPS v2),这是一种可以更准确地预测人类对生成图像的偏好的评分模子。HPS v2在各种图像分布上比以前的指标评估性能更好,并可用于文生图模子的改进,使其成为一个更好的评估这些模子的方法。
练习集的每一组信息,包含prompt、一对图像,以及人类对于两张图的偏好(一张为0,一张为1)。CLIP模子主要来计算图像和prmpt之间的相似度:

HPS v2计算的偏好得分,分母为分别选择此中一张图对应的相似度得分,分子为此中一张图像对应的相似度得分。这个计算的目的是对于结果做一个归一化:

loss函数使用KL散度,计算预测打标的得分,与真实打标的得分,二者之间的差异:

模子练习:使用OpenCLIP练习的ViT-H/14作为预练习模子,对其进行微调。由于在有限的数据集上微调预练习模子,以是通例操纵是freeze前面几层网络大概减少其学习率。本项目练习了CLIP的图像编码器的后20层,以及文本编码器的后11层。
模子评估

分别在 ImageReward、HPD v2两个数据集上进行精度评估,HPS v2实现SOTA:

评估方法:计算生成图像x和prompt的相似度:

本项目的一些局限性:


  • 须要包含更多的主题。
  • 依然可能有的标注毛病:chatgpt可能带来毛病;人工标注带来毛病。
  • 未考虑图像分辨率的影响,因为图像分辨率很影响人类的偏好。
Pick-a-Pic

主要内容

对于文生图模子,反映人类偏好的大型数据集,很少有公开的。为了解决这个题目,本项目创建了一个web应用步调,允许文生图模子的用户生成图像并指定他们的偏好。使用这个web应用步调,构建了一个大型的、开放的文生图数据集,并且标注有用户偏好。部分数据集如下:

利用这个数据集,可以练习一个基于clip的评分函数,即PickScore,它在预测人类偏好的使命上展示了很好的性能。PickScore可以对于多张生成图像进行偏好排序,以此比较差别文生图模子的结果、以及相同模子在差别参数下的结果。
Pick-a-Pic数据集

Pick-a-Pic数据集概况:


  • 包含凌驾50w组信息和3.5w个差别的prompt。
  • 每组信息包含一个prompt、两张图、以及偏好标签。
  • 偏好标签有三种情况:喜欢第一张图,喜欢第二张图,两幅图都差不多。
  • 对一个图片的选择是由文生图使命的爱好者参与的,而不是完全无生图模子使用经验的人员。
如何通过web应用步调收集数据:


  • 用户首先写一个prompt,然后收到两张图片。
  • 用户做出偏好判断,选择此中一张偏好的图片。
  • 之后会呈现一个新的图像的图像来替代被拒绝的图像,用户会在这张新图和刚才喜欢的图像里做偏好选择。
  • 该流程会一直重复,直到用户改变prompt。

数据会合的图像是通过采用多个模子生成的,即Stable Diffusion 2.1、Dreamlike Photoreal2.0, 以及使用差别CFG值的Stable Diffusion XL模子。同时,作者将减少数据会合包含的NSFW示例的数量,并将定期上传最新版本的数据集。在处理收集到的交互时,作者过滤了NSFW短语,并且禁止一些非法用户。每一次收集,将数据集分别为练习、验证集和测试集:


  • 采样1000个prompt,确保每个prompt都是唯一的。
  • 将这些prompt随机分成巨细相同的两组,来创建验证集和测试集。
  • 每个prompt采样一组信息。
  • 确保练习集和这两个子集之间没有重复的prompt。
PickScore模子

为了练习评分函数,本项目使用人类偏好数据和类似于InstructGPT的reward模子,来微调CLIP-H。PickScore在预测用户偏好的使命中取得了SOTA表现,PickScore准确率为70.5%,人类志愿者准确率为68.0%,而原生CLIP-H为60.8%。人类偏好与PickScore有很强的相关性(0.917),而与FID指标则呈负相关(-0.900)。
PickScore遵循CLIP的架构:给定一个prompt x和一个图像y,评分函数s通过使用两个编码器计算文本和图像的相似度。

计算对于两张图的偏好得分:分别计算两张图与prompt的相似度,计算函数的分母为两张图与prompt的相似度,分子为此中一张图与prompt的相似度,这个函数的目的是做归一化计算。

计算loss函数:拿到模子的偏好得分后,计算与人工打分的KL散度,表现预测结果与真实结果的差距。练习过程中,通过调整模子参数来最小化KL散度。

由于很多图像对来自于相同的prompt,通过对于这些图像对进行加权平均,来减轻过拟合的风险。详细来说,每个图像的权重,与它在数据会合的出现频率成反比。
模子评估

对于模子推理,如果两张图的偏好得分的差值的绝对值,小于一个超参t,即

则认为这两张图偏好一致。该超参,对于差别模子结果不一样,作者采取了一个最合适的值,来用于差别模子的评估。
使用Spearman方法来计算预测得分与人类预测结果的相似度:

相关结果,对于每两列,左侧为CLIP-H偏好的图像,右侧为PickScore偏好的图像,绿色框选中的图像为人类偏好的图像,可以看到,PickScore偏好和人类偏好更加接近,PickScore通常选择更雅观和与prompt更一致的图像。

偏好打分模子:可以对于一组生成图像,进行打分排序,并选择得分最高的那一张。PickScore优于其他评估方法。

本项目的一些局限性:


  • 一些图像和提示可能包含NSFW内容,这可能会使数据产生毛病。
  • 用户的偏好可能可能反映在所收集的数据中。
总结与讨论

在AIGC生图过程中,进行图像质量的自动化评估,能快速进行打分、节流人工本钱,更准确的进行模子结果比较,以促进模子迭代。对于特定场景的自动化评估,则须要创建对应的评估体系,包括评分准则、特定数据集、打分模子。我们团队正在进行家装行业AIGC的相关研发,以提高家装AI模子的结果。我们渴望与对此方向感兴趣的同学一起探究和交换。
参考文献


  • 《Paintings and Drawings Aesthetics Assessment with Rich Attributes for Various Artistic Categories》
    https://arxiv.org/abs/2405.02982
  • 《Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis》
    https://arxiv.org/abs/2306.09341
  • 《Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation》
    https://arxiv.org/abs/2305.01569

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

千千梦丶琪

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表