note
- 从零样本(Zero-shot)提示到最新希望的各种提示技术,包罗推理和逻辑链(Chain-of-Thought, CoT)提示、自动链式思索(Auto-CoT)提示、自我同等性(Self-Consistency)提示、逻辑链式思索(LogiCoT)提示等。
- 淘汰幻觉(Reduce Hallucination)的技术,如检索加强生成(Retrieval Augmented Generation, RAG)和链式验证(Chain-of-Verification, CoVe)提示,以及用户交互、微调和优化、基于知识的推理和生成、提高同等性和连贯性、管理情感和语调、代码生成和执行、优化和效率、理解用户意图、元认知和自我反思等方面的技术。
一、Prompt
论文:A Systematic Survey of Prompt Engineering in Large Language Models:
Techniques and Applications
链接:https://arxiv.org/pdf/2402.07927.pdf
(1)零样本提示:该方法通过经心计划的提示引导模子处理新使命,而不需要大量的训练数据。模子接收使命描述但缺乏特定输入输出的标注数据,然后利用其预存的知识基于提示生成猜测。
(2)少样本提示:与零样本提示不同,少样本提示提供几个输入输出的例子来引导模子理解使命。尽管需要额外的标记,但即使是少量的例子也能显着提高模子在复杂使命上的体现。
(3)链式思维提示:该方法通过提示LLM以连贯和逐步的方式思索题目,从而提高其在复杂推理使命上的体现。CoT提示展示了其独特性,可以或许引导LLM通过逻辑推理链生成响应。
(4)自动链式思维提示:为了淘汰手动创建高质量CoT例子的时间和资源斲丧,Auto-CoT通过多样化采样自动生成推理链,从而提高模子的鲁棒性和少样本学习结果。
(5)自同等性:该方法通过从语言模子的解码器中采样生成多样的推理链,并通过边沿化这些链来识别最同等的终极答案,从而提高推理性能。
(6)逻辑链式思维提示:LogiCoT利用符号逻辑原理来加强推理的连贯性和结构性,通过假设查验每一步推理来淘汰逻辑错误和幻觉。
(7)符号链式思维提示:CoS利用简化的符号取代天然语言,以提高LLM的空间推理能力和人类可解释性。
(8)树状思维提示:ToT通过管理中间推理步调的树结构来加强提示能力,答应语言模子系统地探索和前瞻性地推理。
(9)思维图提示:GoT通过建模推理过程为有向图来改进CoT提示,答应动态的相互作用、回溯和想法评估。
(10)系统2注意力提示:S2A利用LLM的推理能力选择性地关注相关部分,通过再生输入上下文来提高注意力和响应质量。
(11)思维线索提示:ThoT将广泛的上下文分段进行增量分析,通过两阶段方法先总结和检查每个分段,再细化信息以生成终极响应。
(12)表格链式思维提示:CoT提示通过动态生成和执行常见的SQL/DataFrame利用来处理复杂的表格场景。
(13)检索加强生成:RAG通过将信息检索无缝融入提示过程中,分析用户输入,制定有针对性的查询,并在预建的知识库中搜刮相关资源,从而生成准确且富有创意的响应。
(14)反应提示:ReAct使LLMs可以或许同时生成推理轨迹和使命特定的动作,加强了推理和动作之间的协同作用。
(15)验证链提示:CoVe通过系统性的四步过程包罗模子生成基线响应、计划验证题目、独立答复题目以及生成修订响应来淘汰幻觉。
(16)条记链提示:CoN通过系统评估文档相关性,强调关键和可靠的信息来过滤无关内容,从而生成更精确和上下文相关的响应。
(17)知识链提示:CoK通过动态知识适应阶段系统地分解复杂使命,建立上下文和题目框架,并从各种来源收集证据。
(18)自动提示:Active-Prompt通过使命特定的例子提示和链式思维推理来提高LLMs在复杂问答使命上的体现。
(19)自动提示工程师:APE通过动态生成和选择最有影响力的提示来自动生成和选择LLMs的指令,从而提高其推理能力。
(20)自动推理和工具利用:ART通过集成外部工具和专业知识来加强LLMs的多步推理能力,使其可以或许办理复杂题目。
(21)对比链式思维提示:Cot通过提供有效和无效的推理树模来推动LLMs逐步推理,从而提高其战略和数学推理评估。
(22)情感提示:EmotionPrompt通过添加情感刺激句子来加强LLMs的情感智能,从而提高其在各种使命上的体现。
(23)草稿提示:Scratchpad提示通过生成恣意序列的中间标记来加强语言模子在复杂多步算法盘算中的体现。
(24)思维程序提示:PoT通过利用外部语言解释器来表达推理步调,从而提高语言模子在数学表达式和财务题目上的体现。
(25)结构化链式思维提示:SCoT通过将程序结构(序列、分支和循环结构)纳入推理步调来加强LLMs在代码生成使掷中的体现。
(26)代码链提示:CoC通过鼓励LLMs将语义子使命格式化为机动的伪代码来提高其逻辑和语义使命的推理能力。
(27)提示优化:OPRO通过利用LLMs作为优化器来迭代生成办理方案,从而提高其在不同使命上的快速适应性和定制化优化过程。
(28)重述和响应:RaR通过答应LLMs在单个提示中重述和扩展题目来提高其理解和响应准确性。
(29)退一步提示:Step-Back提示通过抽象和推理来加强LLMs在复杂多步推理使掷中的体现。
二、相关对比
三、相关实验
(1)零样本提示:在Arithmetic和Symbolic使命上,零样本提示显着提高了模子的准确性。这种技术使得颠末大量数据训练并调解指令的LLM可以或许在没有示例的情况下执行使命,展示了其在零样本学习中的能力。
(2)少样本提示:在NaturalQS、WebQS和TriviaQA使命上,少样本提示显着提高了模子的性能,特殊是在处理复杂使命时体现尤为突出。少样本提示通过提供少量示例提拔模子的体现,实用于特定范畴的使命,如法律、医学等。
(3)链式思维提示:CoT提示在PaLM 540B模子上取得了90.2%的准确率,显示出其在复杂推理使命上的强大能力。这种提示方法通过引导LLM以连贯和逐步的方式思索题目,从而提高其在复杂推理使命上的体现。
(4)自动链式思维提示:Auto-CoT在算术和符号推理使命上分别提高了1.33%和1.5%的平均准确率,表明其自动化多样性采样战略的有效性。
(5)自同等性:自同等性在多个基准测试上显着提高了推理性能,例如在GSM8K使命上提高了17.9%,通过从语言模子的解码器中采样生成多样的推理链,并识别最同等的终极答案来提高推理性能。
(6)逻辑链式思维提示:LogiCoT在GSM8K和AQuA数据集上分别提高了0.16%和3.15%的准确率,展示了其在逻辑推理中的优势。
(7)符号链式思维提示:CoS在Brick World使命大将准确率从31.8%提高到92.6%,显着提拔了空间推理能力。
(8)树状思维提示:ToT在Game of 24使命上取得了74%的乐成率,显着优于CoT的4%乐成率,通过管理中间推理步调的树结构来加强提示能力。
(9)思维图提示:GoT在GSM8K和科学QA数据集上分别提高了3.41%和6.63%的准确率,展示了其在非线性思维过程中的优势。
(10)系统2注意力提示:S2A在究竟问答使命上达到了80.3%的准确率,显着提高了究竟性。
(11)思维线索提示:ThoT在题目和对话数据集上分别提高了47.20%和17.8%的性能,特殊是在混乱上下文中体现尤为突出。
(12)表格链式思维提示:CoT在TabFact和WikiTQ数据集上分别提高了8.69%和6.72%的性能,展示了其在表格推理中的优势。
(13)检索加强生成:RAG在ODQA基准测试上达到了56.8%的精确匹配得分,显着优于seq2seq模子和使命特定的架构。
(14)反应提示:ReAct在HotpotQA和Fact Verification使命上显着淘汰了幻觉和错误传播题目,展示了其在交互式决定使掷中的有效性。
(15)验证链提示:CoVe在列表题目、问答和长情势生成使命上淘汰了幻觉,同时保持了究竟的准确性。
(16)条记链提示:CoN在嘈杂的开放域问答数据集上平均提高了7.9%的精确匹配得分,显着提高了模子在未知场景下的响应能力。
(17)知识链提示:CoK在MMLU物理和化学使命上提高了7%的性能,展示了其在复杂使掷中的潜力。
(18)自动提示:Active-Prompt在文本-davinci-002和code-davinci-002使命上分别平均提高了7.0%和1.8%的性能,展示了其在复杂推理使掷中的优势。
(19)自动提示工程师:APE在BIG-Bench套件和CoT推理使命上显着提高了LLMs的推理能力,大多数情况下超过了人类编写的提示。
(20)自动推理和工具利用:ART在Big-Bench和MMLU基准测试上显着提高了LLMs的性能,有时甚至与手工制作的树模相称。
(21)对比链式思维提示:Cot在SQuAD和COPA推理基准上提高了4-16%的性能,进一步联合自同等性技术时提高了约5%。
(22)情感提示:EmotionPrompt在BIG-Bench使命上提高了115%的体现,显着加强了LLMs在处理情感信号方面的能力。
(23)草稿提示:Scratchpad提示在MBPP和MBPP-aug使命上取得了46.8%的乐成率,展示了其在复杂多步算法盘算中的潜力。
(24)思维程序提示:PoT在涉及数学表达式和金融题目标数据集上平均提高了约12%的性能。
(25)结构化链式思维提示:SCoT在ChatGPT和Codex上显着提高了代码生成的性能,最高可达13.79%。
(26)代码链提示:CoC在BIG-Bench Hard使命上达到了84%的准确率,展示了其在逻辑和语义使掷中的优势。
(27)提示优化:OPRO在GSM8K数据集上提高了最多8%的性能,在Big-Bench寻衅使命上提高了最多50%的性能。
(28)重述和响应:RaR在各种使命上显着提高了模子的理解和响应准确性。
(29)退一步提示:Step-Back提示在STEM、知识问答和多跳推理使命上显着提高了推理能力。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |