ToB企服应用市场:ToB评测及商务社交产业平台

标题: 有待挖掘的金矿:大模型的幻觉之境 [打印本页]

作者: 三尺非寒    时间: 2024-6-22 13:02
标题: 有待挖掘的金矿:大模型的幻觉之境
      人工智能正在迅速变得无处不在,在科学和学术研究中,自回归的大型语言模型(LLM)走在了前列。自从LLM的概念被整合到自然语言处理(NLP)的讨论中以来,LLM中的幻觉现象一直被广泛视为一个显著的社会危害和一个关键的瓶颈,阻碍了LLM在现实世界中的应用。无论是在流行且全面的学术调查中,还是在面向公众的技术陈诉中,都将幻觉问题定位为LLM的主要伦理和安全陷阱之一,应该与其他问题(如偏见和毒性)一起得到严重缓解。因此,将幻觉淘汰到可以忽略不计的程度的允许,不但被视为一个技术挑战,也是更广泛使命的关键构成部分,以减轻与LLM的广泛部署和广泛接纳相关的社会污名和系统风险。
     然而,一小部分工作提出了一种观点,即幻觉并非本质上有害。这种探索性的观点夸大了幻觉的潜在代价和合理须要性。近来的研究表明,幻觉是统计上的一定,而且由于创造性、生成性和信息准确性之间的衡量,从LLM中消除幻觉是不可能的。此外,在许多特定领域的应用中,实现创造性和事实性之间的优化平衡,比仅仅试图消除幻觉更能有效地最大化LLM的效用。幻觉可能特别有代价的LLM用例包括发现新型卵白质、为创意写作提供灵感以及订定创新的法律类比。
    在本文中,我们试图扩大幻觉的概念,并认为幻觉更靠近于“虚构”这一概念,这一术语已经在关于AI的公共话语中得到了流行,但尚未在学术文献中广泛流传。
1 “虚构”(confabulation)VS“幻觉”(hallucination)

"Confabulation" 和 "hallucination" 都是从精神病学借用过来的人化类比,但"confabulation"因克制了暗示LLMs具有感官体验或意识的棘手含义,且更中性,因此在AI公共话语中被视为"hallucination"的首选替代词
1.1 现有定义的局限性

现有的定义主要关注伪造与事实不符的特征,忽略了其在人类交流中的社会和认知效益。
这些定义没有充分考虑人类在填补知识空白时,倾向于使用叙事作为认知资源的倾向。
1.2 新的定义

伪造是一种叙事冲动,即生成更具实质性、更连贯的输出的倾向。这种冲动表现了人类利用叙事进行明白和交流的倾向。
伪造可以产生虚构但可信的信息,帮助人们填补知识空白,并构建连贯的语义意义。

2 数据、方法和结果

2.1 基准数据集

FaithDial:一个无幻觉的对话基准,介于寻求信息的用户和聊天呆板人之间,改编自“维基百科巫师”。Mechanical Turk表明器将WoW的人类生成相应标记为“幻觉”或真实相应。真实相应被细分为三个种别:“蕴含”(Entailment)、“不合作”(Uncooperative)和“通用”(Generic),并对21445个原始相应进行了老实且基于知识的编辑。
BEGIN:是对FaithDial进行的开端研究,旨在选择一个现有的基准进行后续的大规模表明和编辑。作为一个较小的专家策划集,它包括信息寻求查询以及人类编写和模型生成(GPT-2、DoHA和CRTL)的相应,每种相应都使用与FaithDial略有不同的幻觉分类法进行标记(增长了“部分幻觉”作为标签),由专家表明器完成。我们接纳BEGIN作为对我们在HaluEval上发现的叙事模式的模型和数据集的一致性和鲁棒性的验证,以确认不同数据集和模型之间叙事模式的一致性和鲁棒性。
HaluEval:是一个全面的数据集,展示了合理但幻觉的ChatGPT生成与其真相对应物。与FaithDial和BEGIN更细粒度的幻觉标签不同,HaluEval只区分幻觉和真相相应。我们只使用HaluEval的对话部分,包含10000个样本,以保持与其他基准的领域一致性。
对于FaithDial和BEGIN数据集,我们将所有不包含“幻觉”标签的输出视为“真相”,并将所有包含“幻觉”标签以及一个额外真实标签的输出视为“部分”幻觉/真相。这种聚合允许跨数据集进行更直接的比较。如下表所示:虚构文本表现出更高程度的叙事性,因此可以被视为一种叙事丰富的行为。

2.2 方法


2.3 结果


3 虚构代价有待挖掘

我们认为,虚构的叙事丰富特性不应被视为缺陷,而是LLM与人类使用叙事作为说服、身份构建和社会协商多功能工具的既定倾向相一致的标记。反过来,规范观点对虚构的不加思考的否定将冒着从LLM的能力中消除对沟通和意义构建至关重要的行为和认知能力的风险。虚构代价有待进一步挖掘:

4 未来研究方向

我们提出对LLM虚构现象作为潜在资源的系统性辩护,而不是一个绝对的负面陷阱。我们认为,认为LLM产生幻觉是由于它们不可靠、不老实,最终不像人类的观点过于简化。相反,它们虚构并表现出与人类讲故事冲动非常相似的叙事丰富行为模式——也许幻觉使它们比我们乐意认可的更像我们。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4