LLM评估 | 大模子评估方法调研--论文解读（持续更新ing） ...

丝 · 2024-12-13 12:11:49

引言

本文调研了一些大语言模子用于评估的综述和学术论文，详细解读并提取了值得参考的关键内容，希望能帮助到需要使用大模子代替人类进行数据集评测的研究职员和从业者
LLM-based NLG Evaluation: Current Status and Challenges

简述：将LLM的评估方法分为四类：LLM衍生指标评估、用提示词评估、模子微调评估、人类与LLM协作评估，分别总结各种评估方法的近况和优缺点。

LLM衍生指标评估
- 用天生词的概率评估：通过概率巨细确定模子输出质量，强毕竟性的内容模子有更高的概率输出，也被用于幻觉检测，或参加扰动检测模子输出概率的变化
- 用词/句嵌入评估：RAG的时候判断引用和输出之间的相似性，BertScore 评分
  - 鲁棒性不可，轻易收到攻击，即微小变化的测试展示出完全差别的性能
  - 用大模子推理太慢，而且闭源模子无法查察输出概率
  - 偏见，预训练模子编码的内在毛病和相似性计算过程中注入的外在毛病
用提示词评估
- 单一答案打分
  - 不止评分，给出原因再评分更具可解释性，雷同思维链
  - 分种别给出评分并加总，例如有效性、文笔丰富度、有害性；或几种特性给出评分，取最高分
  - 李克特量表：使用一组陈述，对每个陈述分为5个种别，分别黑白常同意、同意、不一定、差别意、非常差别意，对应1-5的评分，加总评估
- 成对比较
  - 在使用中等模子评判时，成对比较效果优于打分
- 多例子排名
  - 对于差别模子的最佳评估方法不一定，包括评分、比较和排名
- 布尔QA，对于是否类的评估场景
- 错误分析，衡量模子能否按照要求输出，例如能否以要求的json格式输出分数
模子微调评估
- 通常方法都是经心构建评估数据，然后微调开源模子，下图是差别模子详细情况对比
- PandaLM和JudgeLM完全从常见的指令数据会合采样，如Alpaca 52K，而CritiqueLLM采用小规模采样，然后进行ChatGPT加强。相比之下，Prometheus和INSTRUCTSCORE依靠GPT-4根据种子数据天生全部指令，而Auto-J和Shepherd使用真实世界的数据。此外，由于大规模的人工注释是不切实际的，除了PandaLM和Shepherd分别在小规模社区数据上使用GPT-3.5和人工注释外，大多数作品都使用GPT-4作为强盛的注释器。
人类-LLM协作评估
- 评估过程中人类与大模子不断修改审核

AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization

发布自己的评估数据集和评估指标，数据集分科学、医学和政府范畴，指标分为范畴词重叠度和范畴token分布偏移值，以及用GPT4来评估，测评了llama等多个模子的指标，包括零样本、两个样本、微调方法。
结论
- 小模子零样本不可，但给两个样本提示就能与大模子效果相当
- 微调不会改变词汇范畴，只会改变风格

The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models

对模子中潜藏的人类认知特点（AOV，态度、观点、代价观）进行评估，拆解人类偏好的复杂性，更好的理解模子
固然之前有人观察模子中潜藏的特点，但没有专门研究AOV以及评估LLM内的AOV，这是第一篇。

EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria

提出一个交互式系统—EvalLM。人类与LLM协作评估，人类先编写提示让LLM评估，在评估过程中人类指出LLM评估的问题，并给出更细致的评估标准，不断迭代优化评估标准，最终得到更准确的评估，而且淘汰了人工成本。
招募专业职员来手动设计提示，总结手动设计提示的难点
- 手动评估很费时间，评估者每次测试几个输出，但对于比较长的输出仍然很费时间
- 评估是多方面的，需要同时衡量多个标准，每个评估者按照自己方式去评估，但有大概改进提示后引入其他方面的退化
- 评估是动态的，评估过程中每个人的标准一直在变，且很难确定哪种是最好的标准
- 评估很难定义，评估者通常不知道如何改进提示
感觉文章写的晦涩，不外可以学习该系统的处置惩罚流程，以及文末附录中的提示词设计本领

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

简述：制作评估数据集，用开源模子继续微调，评估效果可以与GPT4相当。

训练集由 Alpaca 52K 数据会合采样，通过多种开源模子输出相应对，用 GPT3.5 判断哪个更好以此标注数据，为防止位置固有偏见过滤位置不统一的样本，最终使用 300K 个样本
通过 llama-7B 微调的评判模子，更关注相对简便性、清晰度、全面性、情势化程度和遵循指令
- 做数据集时用提示词告诉GPT4评分标准，让其更关注简便性~~
自己创建了人工注释测试集，验证 PandaLM 的效果，7B 仅次于 GPT-3.5

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

简述：对标PandaLM，制作评估数据集，用开源模子微调，分析LLM评判存在的问题并给出办理办法。

105K 种子任务，让 11 个大模子中天生答案，从中随机抽取配成答案对，让 GPT4 评判，最终得到训练集 100K、验证集 5K
- 样本分为带参考和不带参考两种，差别的模板
- GPT4先评分，再判断哪个更好，再给出原因
使用Vicuna-7B、13B和33B参数模子微调
LLM评判毛病
- 位置毛病：倾向与给特定位置高分
  - 交换位置来办理
- 知识毛病：扣问预训练数据之外的问题出现幻觉，且评判模子无法判断这种幻觉
  - 引入参考答案再让LLM来评判
- 格式毛病：使用无参考的模板微调模子，然后在带参考的问题上评判，会出现格式不匹配
  - 随机丢弃带参考的样本，并使用相应的无参考的样本

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

简述：提出两个数据集，观察模子标注和人类标注一致性，调研LLM作为评判者的问题及办理办法。

提出数据集
- 现有评估数据集无法评估多轮对话能力，以是提出MT-Bench数据集，由80多个高质量多轮对话问题构成，旨在测试多回合对话和指令遵循能力
- 创建聊天机器人竞技场（Chatbot Arena），用户自定义问题，由两个模子同时天生答案，用户判断哪个更好。在运行一个月后，网络了3万个样本。
对大模子作为评判模子进行调研
- 单一答案的评分：让LLM评委直接给一个答案打分单一答案
  - 无法辨别相似答案之间的细微差别，且当评判模子发生变化，绝对分数颠簸更大
- 成对比较：一个LLM评委被告知一个问题和两个答案，任务是确定哪一个更好大概宣布一个平局
  - 待评价模子变多时，评价数量呈二次增长
    - 对模子效果排序才会存在此问题，只选出 top-1 不存在
- 参考资料引导下的评分：对于数学和推理问题，除了要比对的两个回答，再提供一个参考答案
大模子作为评判者存在的问题及办理办法
- 模子大概会存在位置偏见，倾向于给特定位置的答案打高分
  - 位置偏见只在相似答案中出现，效果相差过大则偏见几乎消散
  - 办理办法：交换数据位置，让评判模子评两次，只有当一个答案在两个次序中都是首选时才宣布得胜。如果调换后的结果不一致，则可以称其为平局。另一个更激进的方法是随机分配位置，这在大数据下是有效的。
  - 办理办法：引入小样本提示，可以明显进步一致性，但高一致性不代表高准确性，有大概引入新的毛病
- 词语偏见，模子倾向于给更长的文本打高分，即使它们不如短文本清晰有效。
- 自我加强毛病，有些模子更喜好某个模子的输出，例如GPT4更喜好自己的输出，GPT-3.5不喜好自己
- 数学和推理能力有限，即使某些时候GPT4自己可以输出答案，但在评判时轻易受到输入的影响
  - 对于此类问题，让模子自己先独立天生答案，然后在评判时将其作为参考答案
一致性评估
- 在MT-Bench和Chatbot Arena上用大模子和人类标注，发现 GPT4 与人类的一致性高于人类之间，且将 GPT4 的判断展示给人类后，一部分人类以为有道理并愿意改变观点
- 模子之间的评判差异性越大，GPT4和人类一致性越高

备注

目前已解读论文有限，读者有什么好的论文可以再批评区推荐，我会及时更新

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

LLM评估 | 大模子评估方法调研--论文解读（持续更新ing） ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云