Evaluating the Generation Capabilities of Large Chinese Language Models

何小豆儿在此 发表于 2026-2-13 19:42:41

标题

评估大型中文语言模子的天生本领
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvYjNlZTljY2VhN2VhNDJlOTkwMjkyZDM4NDk4ODA0NzkucG5n
论文所在：https://arxiv.org/abs/2308.04823
项目所在：http://cgeval.besteasy.com/
择要

本文先容了 CG-Eval，这是有史以来第一个全面的自动化评估框架，旨在评估跨学科的大型中文语言模子的天生本领。CG-Eval 以其自动化流程脱颖而出，该流程基于模子在六个关键范畴内天生准确且与上下文干系的各种题目的答案的本领对模子举行严酷评估：科学与工程、人文与社会科学、数学盘算、执业医师资格测验、司法测验和注册管帐师测验。除此之外，我们还推出了 Gscore，这是一个由多个指标的加权总和开发的创新综合指数。Gscore 独专程根据参考尺度自动丈量模子的文本天生质量，提供对模子性能的详细和过细的评估。这种自动化不但进步了评估过程的服从和可扩展性，而且还确保了对各种模子的客观和划一的评估。
大规模语言模子的出现预示着自然语言处理惩罚范畴的新纪元，其特点是具有亘古未有的明白和天生复杂文本的本领。这一征象最初由 ChatGPT等模子推广，并导致了学术研究和行业应用的庞大变化。在这一发展之后，中文大规模语言模子明显涌现，涵盖开源和闭源范畴。这些模子，比方 ERNIE Bot、Spark Desk、等，引入了数千亿个参数，有望在差别的语言和文化配景下增强文本天生本领。然而，在体系评估这些模子方面仍然存在一个关键的差距，特殊是在它们满意差别学科的眇小需求的本领方面。
本文先容了 CG-Eval，这是一个开创性的评估框架，专门用于补充大型中文语言模子评估中的一个关键空缺。与 MMLU 等重要通过多项选择题情势关注明白本领的传统基准差别，CG-Eval 通过全面评估天生本领开发了新局面。我们的框架涵盖了广泛的学科，会集在六个重要范畴：科学与工程、人文与社会科学、数学盘算、执业医师资格测验、司法测验和注册管帐师测验。CG-Eval 的创新之处在于其全面的方法——评估模子而不但仅是语言明白。它深入研究模子天生准确、上下文干系和学科特定相应的本领，从而更全面地相识它们的本领。
别的，我们引入了 Gscore，这是一种新颖的综合指数，旨在根据参考尺度客观地衡量模子天生的文本的质量。 Gscore 代表了多种评估尺度的综合，这些尺度颠末加权以捕获模子性能的差别方面。该指标是一个庞大飞跃，逾越了传统的以明白为重点的评估，以评估文本天生的细节方面。CG-Eval 的一个关键特点是其快速、自动化的评估过程。这种自动化不但加速了评估周期，使对各种模子举行广泛的评估成为大概，而且还确保了高度的客观性，不受人为私见的影响。通CG-Eval 办理了现有评估方法的差距，对上风和劣势提供了深刻的分析当前汉语语言模子的范围性。
干系工作

为了评估这些实质性的汉语语言模子的性能，已经相继推出了几个专门为它们计划的基准和数据集。此中包罗 2023 年 4 月 25 日发布的 MMCU数据集、2023 年 5 月 9 日发布的 SuperCLUE 基准、2023 年 5 月 15 日发布的 C-Eval基准、2023 年 5 月 17 日发布的 M3KE基准、2023 年 5 月 21 日发布的 GAOKAO-Bench、2023 年 6 月 9 日发布的獬豸、2023 年 6 月 10 日发布的天秤大型语言模子评估框架以及 2023 年推出的 CMMLU2023 年 6 月 15 日。MMCU 数据集起首采取 8 个学科的 3,331 道高考选择题来衡量模子对天下的根本明白。随后，它使用 2,819、3,695 和 2,001 道多项选择题来衡量中文大型语言模子在医学、法律和生理学等专业垂直范畴的专业知识。数据会集的题目和答案都是公开的，旨在促进中文大型模子的开发和评估。与 MMCU差别，SuperCLUE 基准的细节仍未公开，由于既没有提供数据集也没有提供评估代码。C-Eval 基准采取多项选择题格式举行评估，包罗 52 个学科的 13,948 个题目。固然这套试题可供下载，但研究职员必要将模子答案上传到评估网站举行自动评分。M3KE 基准包罗 20,477 道多项选择题，涵盖 71 项任务。如今，只有试题可用，答案不公开。
有爱好评估的人必须与 M3KE 团队接洽。GAOKAO-Bench汇编了 2010 年至 2022 年天下高考的试题，包罗 1,781 道客观题和 1,030 道主观题。评估分为客观题的自动评估和主观题的专家评审评分。獬豸包罗 13 个种别、516 个主题和统共 249,587 道多项选择题，但该数据集只有一小部门可供公众使用。FlagEval（天秤）基准重要使用 Chinese_MMLU（从英文 MMLU数据集翻译而来）、C-Eval和 GaoKao2023 作为此中文多项选择题数据集。别的，另有一个基于中国语言学与认知挑衅数据集的开放式题目部门。它由两部门构成：CLCC-H，此中 190 道题目通过人工判定举行评估；CLCC-G，由 GPT-4 根据评估维度天生 550 个题目，随后由人工策展人举行美满。CLCC-G 的评估效果由 GPT-4 自动天生。别的，FlagEval（天秤）模子评估必要注册和申请。末了，CMMLU包罗 11,528 个多项选择题，涵盖 67 个科目，可公开下载。
总之，在可用的基准中，只有 MMCU 、C-Eval 和 CMMLU 提供带有自动评估的开放数据集。值得注意的是，C-Eval 不公开其答案，必要研究职员上传题目的模子答案才华得到自动评分。 MMCU和CMMLU都公开分享题目和答案，方便中文大型模子范畴的研究职员评估和改进他们的体系。然而，值得注意的是，全部这些基准测试重要偏重于评估中文的明白本领，而不是专门用于评估天生本领。评估任务只使用多项选择题，此中模子要么直接天生答案，要么产生埋伏答案选项的概率分布。这种评估模式好像重要从MMLU中罗致灵感。鉴于大型语言模子的天生本领多种多样，这种评估方法存在很大的范围性。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

页: [1]

qidao123.com ToB IT社区-企服评测·应用市场's Archiver

Evaluating the Generation Capabilities of Large Chinese Language Models