IT评测·应用市场-qidao123.com
标题:
搜刮引擎算法工程师,在query明白方面,都有哪些方面的工作
[打印本页]
作者:
干翻全岛蛙蛙
时间:
2024-7-15 22:56
标题:
搜刮引擎算法工程师,在query明白方面,都有哪些方面的工作
一、什么是query明白?
普通来讲,就是query整形。又可以明白为是一个转讨论,把用户送来过来的奇希奇怪的query(或者说是在搜刮引擎看来是奇希奇怪的query)转换为搜刮引擎最想看到的query的。
在LLM当前能力的帮助下,实际上query明白的工作好做多了。纵然没有太多基础的玩家,实际上完全可以依赖LLM来做这件事。对于任何一个环节,就是一个prompt的事变。这绝对是会有收益的。问题是成本,以及性能。一个检索需求的时延要求多数是3s内,如果只靠LLM是很难控制在3s内的。对于离线的任务,非实时交互的,对时间要求不高的,可以考虑使用LLM,效果大概比单独训练一个小模型效果都要好。
二、重要工作
在query明白方面,照旧有许多工作要做的。
2.1 分词与词性标注
将用户输入的查询语句举行有效分词。
对分词后的词汇举行词性标注,区分名词、动词、形容词等。
对于这一块内容,已经有比较成熟的技术,例如StanfordNLP,就是一个模型一个包,拿过来就可以使用使用部署成服务。
这里还必要去做一个工作:关键词提取,从查询中提取出对搜刮效果影响最大的关键词。这包罗基于字符匹配的分词算法、基于统计的分词算法,以及基于明白的分词算法,后者在分词的同时举行句法、语义分析,处理歧义现象。举行权重分析,使用诸如TF-IDF算法等方法确定Query中各词汇的重要性,并据此优化搜刮效果的相干性。
2.2 定名实体辨认
辨认查询中的专著名词,如人名、地名、组织名等。这里有一个做法,可以通过定名实体来做加分。优化排序效果。
2.3 查询意图辨认
分析用户查询背后的意图,好比是信息检索、生意业务、导航照旧其他特定意图。
意图分类的细化,例如将信息检索意图细分为新闻、学术、娱乐等。在RAG中,必要知道query应该是模型回复照旧联网查询,故必要一个二分类的模型。
意图辨认,实际上就是分类任务。
还可以通过意图分类和定名实体辨认技术,明白用户的搜刮意图,尤其是在Query中存在多个大概的意图时,必要结合知识图谱举行知识推理,完成意图辨认。
2.4 情感分析
判断查询语句的情感倾向,如正面、负面或中性。
2.5 查询改写
包罗Query纠错、Query对齐和Query扩展。对原始查询举行改写以更好地匹配搜刮效果。Query纠错用于修正用户输入的错误,Query对齐用于将用户Query改写为与搜刮引擎索引内容更匹配的情势,Query扩展则是为了提供更多相干搜刮选项,帮助用户挖掘潜伏需求。
包罗同义词替换、语法调整、错别字纠正等。
通过同义词库或上下文分析扩展查询词,增加检索的全面性。这里同义词也可以做成类似于图谱的东西。通过同义词扩展策略,增加Query的表达范围,进步搜刮效果的覆盖度和准确性。但是同义词并非总是有效,也会带来副作用。这对同义词的构建要求是比较高的。
此外,充实使用LLM的能力,也可以有不错的提升效果(不过处理时间比较长)。这里再分享一下我的这篇文章。
用十篇论文聊聊关于使用LLM做query Rewrite的问题_hyde+prf-CSDN博客
2.6 上下文明白
使用用户历史数据、地理位置等信息明白查询的上下文。
对于现在的许多LLM应用,多轮对话的作为上下文非常重要的组成部门。
对于不同的范畴场景,这里会有比较大的出入。例如电商范畴,可以结合用户画像,用户的历史搜刮行为来对当前的query举行明白。而对于搜刮引擎,可以对全部query做分类处理。而对于chat范例的则对多轮对话的内容举行明白和改写又是特别有意义的。
在chat方面指代消歧是一个重要的内容。
2.7 多语言处理
对于多语言搜刮引擎,还必要处理不同语言之间的查询明白问题。
这里拼音也可以当做多语言处理。
多模态的内容,在一定水平上也可以算做多语言处理。
三、query明白范畴的一些研究方向
深度学习应用:研究怎样使用深度学习技术来进步分词、定名实体辨认、意图辨认等任务的准确性。
迁移学习:探索怎样将在一个范畴学到的知识迁移到另一个范畴,特别是在数据稀缺的情况下。
跨语言明白:研究怎样将一种语言的查询明白技术应用到另一种语言。
对话上下文明白:研究怎样在多轮对话中更好地明白用户的意图。
对抗性学习:研究怎样防御对抗性查询对搜刮引擎的影响。
隐私保护查询明白:怎样在保护用户隐私的前提下举行查询明白。
可解释性与透明度:进步查询明白算法的可解释性,使搜刮引擎的行为更加透明。
弱监视学习:使用少量的标注数据来训练模型,减少对大量标注数据的依赖。
这些研究方向都是当前学术界和工业界的热点问题,不断有新的技术和论文涌现。作为搜刮引擎算法工程师,关注这些前沿动态,并结合实际业务需求举行技术创新是非常重要的。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4