1.17组会报告

打印 上一主题 下一主题

主题 984|帖子 984|积分 2952

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
STRUC-BENCH: Are Large Language Models Good at Generating Complex Structured Tabular Data?
STRUC-BENCH:大型语言模子擅长天生复杂的结构化表格数据吗?23年arXiv.org
1概括

  这篇论文旨在评估大型语言模子(LLMs)在天生结构化表格数据方面的本领,并提出了一些创新方法来提高模子性能。
题目配景



  • 只管大型语言模子(如GPT-4)在自然语言处置惩罚使命中体现出色,但在天生复杂的结构化数据(如表格、HTML或LaTeX格式)时仍存在挑衅。
  • 研究强调当前缺乏系统性的基准和指标来评估模子在这些使命中的性能。
焦点贡献



  • 提出了一种新的基准测试(Benchmark),名为STRUC-BENCH,覆盖多种数据格式,包罗文本表格、HTML和LaTeX。
  • 计划了一种新方法,FORMATCOT(结构感知的提示优化),用于天生特定格式的提示数据,以改进模子的微调过程。
  • 引入了两个新评价指标:   

    • P-Score:通过模子自身对天生内容和格式的相似性进行评分。
    • H-Score:使用启发式规则盘算天生表格与目标表格的相似性。


  工作流程概述:我们首先创建原始文本表、HTML表和LATEX表的数据集。随后,LLaMA-7B使用FORMATCOT构建的练习数据进行练习。最后,我们的基准测试验证了当前LLM天生此类表的有效性。
2 题目分析和Benchmark

2.1题目分析

   为了评估LLM将文本形貌转换为结构化表格的本领,我们使用了RotoWire数据集,该数据集原本是一个从表格到文本的数据集,我们将其反过来作为一个从文本到表格的使命。在通过对20个样本的审查确保形貌包含足够的表格天生信息后,我们发现GPT-3.5和GPT-4的性能有很大的局限性,尤其是在处置惩罚复杂结构时。
   在以表格等精确格式天生数据的测试中,GPT-3.5和GPT-4只管功能先辈,却经常堕落,MTurk系统性人工解释研究就证明白这一点。图2量化了错误类型,分为“元素错误”、“元素格式错误”、“结构错误”和“结构命名错误”。

图2 人工解释的错误分析

     GPT-3.5仅有3%的输出完全准确,而GPT-4仅有9%略好于GPT-3.5。这些结果表明,GPT架构在计划上存在局限性,只管它能有效地模仿语言模式,但在需要较长序列的连续结构连贯性的使命中显得力有未逮。
2.2 Benchmark Construction(基准建设

研究者们构建了一个名为STRUC-BENCH的基准测试,涵盖了文本表格、HTML和LaTeX格式。他们从RotoWire数据集和The Stack中选择了大于3x3的表格,以确保数据集的多样性和复杂性。STRUC-BENCH包罗了对四个流行LLMs(GPT-NeoX-20B、GPT-3.5、GPT-4和Vicuna)的评估。
         

                   表1 STRUC-BENCH数据统计。行数和列数已取均匀值。
3方法

3.1数据天生

如图3,提出了FORMATCOT,使用GPT-3.5天生格式指令,这是一种自指导方法,用于天生{数据、指令}对,以到达微调的目标。详细来说,我们对FORMATCOT的提示涉及指导模子准确形貌和表明输出表格中出现的格式元素。

图3:左上角的框体现原始输入,显着缺少对格式的形貌。为了明确指示模子理解格式,我们使用位于右侧的FORMATCOT,它天生<FORMAT INSTRUCTION>。左下角的框说明白通过FORMATCOT后LLaMA微调的输入是什么样子。<TEXT>为预期的表输出(原始输入)提供形貌性文本,<TABLE>用作参考表(输出),<FORMAT INSTRUCTION>是通过FORMATCOT天生的格式指南(添加到输入中)。
3.2评估指标

提出了P-Score(基于模子的评估)和H-Score(基于启发式的评估)两种新指标,以更准确地衡量LLMs的性能。
P-Score
我们接纳两种方法对每个指标进行评分。首先,我们实验基于模子的评估,用两个表查询GPT-3.5,让它分别对内容和格式的相似性进行评分。我们会提示模子在输出分数前实验Chain-of-Thought (CoT) 头脑链推理,用猜测表和真值表两种次序查询模子,然后均匀分数。以P-Score(提示分数)的情势报告这些结果。
H-Score
别的,我们还接纳了手工制作的评分函数来对表格的相似性进行评分。由于表格可以以差别的格式出现,我们接纳了几种启发式方法对表格进行归一化处置惩罚并盘算其相似性。我们使用Levenshtein距离的均匀值和Ratclif-f/Obershelp相似性度量来盘算字符串或数据结构之间的相似性。这些启发式归一化指标以 H-Score的情势报告。
4实验

4.1实验设置

评估指标:使用了包罗SacreBLEU、ROUGE-L、BERTScore、BARTScore、BLEURT在内的多种传统文本相似度评估指标,以及文章提出的两个新指标:P-Score和H-Score。

评估模子:包罗GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna-13B、LLaMA-7B,以及颠末微调的LLaMA-7B模子。

数据集:每个项目由三部分构成:指令、输入和输出。天生结果时,将每个项目标指令和输入合并为模子的终极输入。

推理过程:在推理过程中,用户提供自然语言提示,形貌使命的格式和内容,以及预期的响应。

4.2人工评估

评估内容和格式质量:通过人工评估,关注内容和格式质量,使用10分制评分。

评估结果:P-Score和H-Score与人类判断有显著相干性,表明这些指标在评估结构化输出方面的有效性和可靠性。内容P-Score显示出最佳的实例级相干性。

4.3实验结果

表2根据几个指标对差别的LLM进行了比力分析。对于“来自原始文本的表格”(Tables from Raw Text),Ours-7B 在每个指标上都优于其他模子。如果不进行微调,Ours-7B的性能会显着下降,尤其是在SacreBLEU、ROUGE-L和BERTScore方面。不外,这些差别很小,7B模子在其他指标上都压倒一切。
这些结果表明,我们的方法体现出了杰出的性能,凸显了微调较小模子逾越较大模子的功效。别的,我们还深入分析了基于我们的Mturk解释,将观察到的缺陷归因于几种错误类型。我们还在图5中展示了本领图。

表2:测试集上的自动评估结果,包罗五种以前的度量标准和四种建议的度量标准。 w.o.f inetune体现我们还比力了未进行微调的模子的性能,作为一项溶解研究。Ours-7B "是颠末微调的LLaMA。
  

5局限性

虽然我们进行了全面的分析,但本文对结构化文本天生中LLM的探索还存在一些局限性:
探究表格体现的最佳格式 在这项研究中,我们没有调查哪种表格格式最有效。相同信息的差别出现方式大概是公道的,而表格规范化计谋,如确定将给定究竟表格化的最佳方式或如何将多个表格相互毗连等,仍有待探索。未来的研究可以对表格规范化进行研究,以确定表格数据结构和体现的最佳计谋。
扩大数据集范围  可以探索的数据类型和来源是无穷无尽的。纳入更广泛的数据集可以让模子接触到更广泛的结构格式,终极提高其整体性能。
增强数字推理本领 我们的研究发现,数字推理本领不足是 LLM 面临的挑衅之一。研究增强这些模子的数字推理本领的技术可以显著提高它们的性能。
开发先辈方法 虽然我们提出的结构感知的指令微调方法(structure-aware instruction tuning method)显示出了很好的效果,但我们还可以开发更先辈的技术。例如,未来的工作可以探索将更明确的结构信息纳入模子的方法,大概开发能让模子更有效地学习结构模式的方法。
探索多模态LLMs   随着LLM的不断发展,我们有机会探索多模态模子,这些模子可以以结构化的方式处置惩罚和天生文本以及其他情势的数据,如声音或图像。‌‌
如今研一,有相似方向的朋友我们可以互换学习呀


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

小秦哥

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表