张裕 发表于 2024-12-28 03:08:39

CultureLLM 与 CulturePark:增强盛语言模型对多元文化的明白

本文介绍团队刚刚在加拿大温哥华召开的顶会NeurIPS 2024上发表的两篇系列工作:CultureLLM 和CulturePark。此项研究以生成文化数据并练习文化专有模型为紧张本领,旨在提拔已有基础模型的多文化明白本领,使得其在认知、偏见、价值观、在线教诲等差别场景下的文化明白使命上均得到提拔。

https://i-blog.csdnimg.cn/img_convert/b38c13c48c5a947c130062056062434a.png

论文1:CultureLLM: Incorporating Cultural Differences into Large Language Models,
论文:https://arxiv.org/abs/2402.10946
代码:https://github.com/Scarelette/CultureLLM

论文2:CulturePark: Boosting Cross-cultural Understanding in Large Language Models
论文:https://arxiv.org/abs/2405.15145
代码:https://github.com/Scarelette/CulturePark
 CultureLLM

我们首先提出的模型叫做CultureLLM,其核心头脑是利用大模型对Prompt的敏感性来生成句子布局多性化、语义不变的练习样本,以对当下的练习数据举行扩充。如下图所示,我们首先从World value survey这一权威调查问卷中采样50个题目和答案,然后利用数据增强对题目举行改写、答案则保持不变。之后,我们用种子数据和生成的数据来为每个文化练习一个专有模型。为了验证CultureLLM的有效性,我们在一些文化相干的下游使命上举行验证,包括内容检察使命以及生成使命,这些数据集都是多语言数据集。
https://i-blog.csdnimg.cn/direct/cf346efd6c594982bfc9d9e7630523a0.png
 语义不变的数据增强

我们数据增强的具体使命是生成具有相同语义信息的QA对。首先,我们从WVS中提取一个QA对,之后用GPT-4生成k个具有相同语义的句子,然后对生成的句子举行句法分析,转换成语义模版。末了,根据每个句子的上下文信息找到同义词来填补语义模版的空。
https://i-blog.csdnimg.cn/direct/73472d5edaac42a0a8a9974573ce84e8.png
 实验效果

我们微调了一个CultureLLM-One和9个针对特定文化的CultureLLM,涵盖以下9种文化:阿拉伯(Ar)、孟加拉(Bn)、中国(Zh)、美国(En)、德国(De)、韩国(Ko)、葡萄牙(Pt)、西班牙(Es)和土耳其(Tr)。这些文化既包括高资源文化,也包括低资源文化,因此可以作为具有代表性的评估对象。我们采用了与文化相干的公共数据集,这些数据集是多语言数据集,总共有59个测试集,涵盖9种语言,共包罗68,607个测试样本。

https://i-blog.csdnimg.cn/img_convert/0334e6d552324b9adc28aa0bf8933af4.jpeg
我们在上图中展示了每种文化和使命的匀称效果,并对每个效果举行了归一化处理后取匀称值。我们的结论如下:

[*] 特定CultureLLM和CultureLLM-One都显著优于其他方法,其中特定CultureLLM表现最佳。具体而言,CultureLLM 显著逾越了GPT-3.5(提拔)、Gemini(提拔)和RAG(提拔),在部门使命上性能可与GPT-4媲美甚至更优。
[*] CultureLLM-One在59项使命中比GPT-3.5高出4%以上,但性能不及特定文化模型。这表明单一 LLM可能不是办理低资源文化使命的最佳方案,因为差别文化的数据可能会相互交错,影响模型的性能。
[*] 从文化角度看,CultureLLM在英语、中文和西班牙语文化中表现最佳,而在韩语文化中没有显著提拔,在所有四种模型的性能相似。我们推测原因可能是这些基础模型对韩语文化的打仗较少。
CulturePark

在CulturePark 中,我们提出了一个由大型语言模型(LLM)驱动的多智能体框架,用于模拟人类跨文化交流。CulturePark 通过多智能体的交流, 用于生成多样化且高质量的文化数据集。包括一名紧张代理人(英语代理 Lily),以及多少文化代理人(比方 阿拉伯代理Abdul),这些文化代表与紧张代理人互动并围绕一个文化话题举行讨论。当一个初始题目作为输入提供给框架时,这些智能体就该题目展开讨论并表达各自的观点。他们差别的文化配景和性别促成了多样化的观点,并相互激发更深层次的思考。原始题目及其真实答案可以通过创建新题目和更全面的答案来增强。
最终,这些互动生成了一个跨文化对话数据集,包罗对差别文化的深刻且全面的思考以及丰富的信息知识。随后,我们对原始数据集举行精炼,举行究竟验证并进步其多样性,用于微调特定文化的LLM,以应用于下游使命,如图所示。
https://i-blog.csdnimg.cn/direct/4341f0d6dc52434088e78fb011a35909.png
 多智能体自由交互的数据增强

CulturePark 是一个由大型语言模型(LLM)驱动的跨文化交流框架,用于生成文化相干的数据,来构建特定文化的LLM和举行文化对齐。该框架受认知辩论理论(CCT)和社会认知理论(SCT)的启发,模拟来自差别文化的人之间的交流,以促进对文化话题的更深入明白。CCT认为,认知辩论有助于个体举行更深入的思考,而SCT强调,个体可以通过解释和辩论深化对差别观点的明白。如图所示,我们设计了两种类型的文化智能体:紧张代理人和文化代表。具体而言,紧张代理人Lily来自英语文化,负责与来自差别文化的代表举行所有对话,如来自阿拉伯文化的Abdul和来自西班牙文化的Javier。我们向LLM输入系统提示,其中包罗配景设定和初始题目以启动对话。初始题目来自于WVS和GAS,这两个流行的文化调查,如“你怎么看待‘我生存中的一个紧张目标是让我的父母感到骄傲’?请提供你的观点和理由”。之后,智能体举行跨文化对话以生成对话数据。目前,CulturePark 支持 8 种文化和 2 种性别,而且可以轻松添加更多文化。
我们设计了改进的提示技术,以保持高质量的对话。首先,通过设计自我校准 提示,减少了紧张代理人和文化代表的文化偏见,以校准他们的输出。我们利用一个种子数据,其中包罗目标文化对输入题目标态度,以引导对话。所有后续的报告应与种子中的答案相符合。如图所示,我们引入了Abdul文化中的观点,并要求Abdul和Lily遵照各自的文化举行表达。其次,输出的冗余题目,即LLM在多轮对话后总是生成类似的对话,我们通过设计两种对话风格来办理这个题目:一种是自我引导 提示,可以引导对话生成更多样化且信息量丰富的数据,比方“在你的文化中有没有与之前讨论的题目相干的内容?”和“你同意她的观点吗?提供更多理由支持你的想法”;另一种是自由谈天,不必要人工到场,激发LLM的内在创造力。
https://i-blog.csdnimg.cn/direct/e0c87846b27644e2a73656904428f84c.png
 实验效果

内容考核
内容审查对于维护差别文化配景下在线平台至关紧张。为了举行此次实验,我们评估了我们文化特定模型在8种差别文化中的有效性:阿拉伯文化、孟加拉文化、中国文化、德国文化、韩国文化、葡萄牙文化、西班牙文化和土耳其文化。我们在7项内容考核使命上对这8种差别文化举行评估,使命目标是检测以下内容:仇恨言论、攻击性语言、垃圾信息、辱骂性言论、偏见性言论、威胁性言论和言论立场的零样本评估,评估指标为匀称F1得分。

https://i-blog.csdnimg.cn/img_convert/8f1c5395bfc80fbf8b0f7089153addc2.png
我们在上图中分别对文化和使命类型举行了分析。最有趣的观察是,我们的模型在5种文化中超过了GPT-4,并在其余3种文化中接近GPT-4的表现,只管用于微调的数据是由GPT-3.5-turbo生成的,而GPT-3.5-turbo的性能远不及 GPT-4。

文化对齐
https://i-blog.csdnimg.cn/direct/748ebbbc05474a19993f6881a409336e.png
 霍夫斯泰德的文化维度理论是一个基于从差别国家收集的数据,用于明白各国文化差异的框架。我们要求LLMs回答VSM 13中的24个题目,以评估文化对齐。如图所示,我们的模型大幅逾越了GPT-3.5和GPT-4,表明它们在文化对齐和文化明白方面具有出色的本领。
文化教诲
受到情境学习理论的启发,我们利用CulturePark 举行文化教诲,在该平台上,我们微调的模型充当外国人与人们讨论文化题目,从而创造跨文化交流的情境并学习特定文化知识。比方,想要了解阿拉伯文化的人可以与我们的阿拉伯文化模型举行交流。我们约请了24名中国到场者,每位到场者都得到了文化学习大纲,并被要求根据大纲与模型举行对话。他们可以向模型提出任何相干题目,并表达他们的观点。之后,到场者参加了VSM 13文化明白考试,他们之前从未打仗过此类测试。
https://i-blog.csdnimg.cn/direct/2f13ff0ca8cc47c5b157bbda316ec7be.png 
上图展示了差别到场者的匀称效果。我们得出了以下发现:


[*] 首先,利用我们模型举行学习的到场者在所有文化的文化考试中表现优于利用GPT-4的到场者。这表明,我们的微调模型在文化明白方面优于GPT-4。
[*] 其次,到场者与我们的模型交流时,比与GPT-4 交流时满意度更高。
[*] 别的,许多到场者表示,GPT-4 的回答模糊不清。只管我们已将 GPT-4 提示为来自特定文化的人,但它总是以中立的词汇回应,没有明确的观点或想法。而我们的模型能够提供刀切斧砍的观点。
未来猜测

增强盛模型的多语言明白本领是使AI真正走入千家万户的紧张环节。比年来关于文化与大模型的研究也徐徐被研究者所重视。我们期待未来会有更多更好的工作出现。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: CultureLLM 与 CulturePark:增强盛语言模型对多元文化的明白