【AIGC】AI怎样匹配RAG知识库：关键词搜刮

我可以不吃啊 · 2024-10-22 14:44:23

引言

RAG作为镌汰模型幻觉和让模型分析、回答私域干系知识最简朴高效的方式，我们除了使用之外可以实验相识其是怎样实现的。在实现RAG的过程中，有语义搜刮也有关键词搜刮，我们这篇文章来用jieba库以及TF-IDF实现关键词搜刮RAG。
jieba库简介

jieba（结巴）是一个在Python中广泛使用的分词库，特殊适用于中文文本处理。jieba库不仅支持基本的分词功能，还提供了关键词提取、词性标注、命名实体识别等多种功能。在关键词检测范畴，jieba库的TF-IDF和TextRank算法被广泛应用于提取文本中的关键词。
TF-IDF简介

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于信息检索和文本挖掘的常用加权技术。它通过盘算词汇在文档中的频率（Term Frequency, TF）和在整个语料库中的逆文档频率（Inverse Document Frequency, IDF），来评估词汇的告急性和干系性。
TF-IDF的盘算公式如下：

简朴来说关键词出现的次数越多且存在于其他文档中的频率越低，那么这个关键词就越告急。
实践

我们来模仿用户询问题目，模型根据题目从知识库中检索出干系文档，并根据检索到的文档天生回答。
我们假设用户输出是text1，text2中是多个以";"隔开的文档，我们使用jieba库分割关键词并使用TF-IDF去实现关键词搜刮RAG，搜刮text2中最适配text1的文档。

例子

# Example text
text = "发到顺丰"
# Example text2
text2 = "您好，是您拨打的客服电话吗;你好，我的这个货想要通过顺丰去发;订单号发我一下;xxxxxx;好的我这边给您发顺丰"

复制代码

用jieba库提取关键词

# 切割 text2 并将其作为文档
documents = text2.split(';')
# 提取关键词的函数
def extract_keywords(text):
return jieba.analyse.extract_tags(text)
# 提取查询关键词
query_keywords = extract_keywords(text)
# 提取文档关键词
documents_keywords = [extract_keywords(doc) for doc in documents]

复制代码

盘算TF-IDF

各自盘算查询关键词和文档关键词的TF-IDF为之后盘算余弦相似度举行准备

# 计算查询关键词的词频 (TF)
query_keyword_counts = Counter(query_keywords)
# 总文档数
total_documents = len(documents)
# 计算所有关键词的逆文档频率 (IDF)
all_keywords = set()
for doc_keywords in documents_keywords:
all_keywords.update(doc_keywords)
keyword_idf = {}
for keyword in all_keywords:
doc_count_containing_keyword = sum(1 for doc_keywords in documents_keywords if keyword in doc_keywords)
keyword_idf[keyword] = math.log((1 + total_documents) / (1 + doc_count_containing_keyword)) + 1
# 计算查询关键词的 TF-IDF
query_tfidf = {}
for keyword, count in query_keyword_counts.items():
tf = count
idf = keyword_idf.get(keyword, 0)
query_tfidf[keyword] = tf * idf
# 计算所有文档的 TF-IDF
documents_tfidf = []
for doc_keywords in documents_keywords:
doc_keyword_counts = Counter(doc_keywords)
doc_tfidf = {}
for keyword, count in doc_keyword_counts.items():
tf = count
idf = keyword_idf.get(keyword, 0)
doc_tfidf[keyword] = tf * idf
documents_tfidf.append(doc_tfidf)

复制代码

盘算文档和查询相似度

通过盘算余弦相似度来盘算查询词与文档相似度

# 计算余弦相似度
def cosine_similarity(vec1, vec2):
intersection = set(vec1.keys()) & set(vec2.keys())
numerator = sum(vec1[x] * vec2[x] for x in intersection)
sum1 = sum(vec1[x] ** 2 for x in vec1)
sum2 = sum(vec2[x] ** 2 for x in vec2)
denominator = math.sqrt(sum1) * math.sqrt(sum2)
if not denominator:
return 0.0
else:
return float(numerator) / denominator
# 计算文档与查询的相似度
similarities = []
for doc_tfidf in documents_tfidf:
similarity = cosine_similarity(query_tfidf, doc_tfidf)
similarities.append(similarity)
# 按相似度排序并返回结果
sorted_documents = sorted(zip(documents, similarities), key=lambda x: x[1], reverse=True)
# 打印结果
for i, (doc, score) in enumerate(zip(documents, similarities)):
print(f"Document {i+1}: {doc}\nScore: {score}\n")

复制代码

结果

Score得分越高，则文档越匹配查询词，可以看到，我们根据关键词搜刮，找到了最适配text1的文档，Document 2。

Document 1: 您好，是您拨打的客服电话吗
Score: 0.0
Document 2: 你好，我的这个货想要通过顺丰去发
Score: 0.4472135954999579
Document 3: 订单号发我一下
Score: 0.0
Document 4: xxxxxx
Score: 0.0
Document 5: 好的我这边给您发顺丰
Score: 0.0

复制代码

完整代码：

import jiebafrom jieba.analyse import default_tfidffrom collections import Counterimport math# Example text
text = "发到顺丰"
# Example text2
text2 = "您好，是您拨打的客服电话吗;你好，我的这个货想要通过顺丰去发;订单号发我一下;xxxxxx;好的我这边给您发顺丰"
# 切割 text2 并将其作为文档
documents = text2.split(';')
# 提取关键词的函数
def extract_keywords(text):
return jieba.analyse.extract_tags(text)
# 提取查询关键词
query_keywords = extract_keywords(text)
# 提取文档关键词
documents_keywords = [extract_keywords(doc) for doc in documents]
# 计算查询关键词的词频 (TF)
query_keyword_counts = Counter(query_keywords)
# 总文档数
total_documents = len(documents)
# 计算所有关键词的逆文档频率 (IDF)
all_keywords = set()
for doc_keywords in documents_keywords:
all_keywords.update(doc_keywords)
keyword_idf = {}
for keyword in all_keywords:
doc_count_containing_keyword = sum(1 for doc_keywords in documents_keywords if keyword in doc_keywords)
keyword_idf[keyword] = math.log((1 + total_documents) / (1 + doc_count_containing_keyword)) + 1
# 计算查询关键词的 TF-IDF
query_tfidf = {}
for keyword, count in query_keyword_counts.items():
tf = count
idf = keyword_idf.get(keyword, 0)
query_tfidf[keyword] = tf * idf
# 计算所有文档的 TF-IDF
documents_tfidf = []
for doc_keywords in documents_keywords:
doc_keyword_counts = Counter(doc_keywords)
doc_tfidf = {}
for keyword, count in doc_keyword_counts.items():
tf = count
idf = keyword_idf.get(keyword, 0)
doc_tfidf[keyword] = tf * idf
documents_tfidf.append(doc_tfidf)
# 计算余弦相似度
def cosine_similarity(vec1, vec2):
intersection = set(vec1.keys()) & set(vec2.keys())
numerator = sum(vec1[x] * vec2[x] for x in intersection)
sum1 = sum(vec1[x] ** 2 for x in vec1)
sum2 = sum(vec2[x] ** 2 for x in vec2)
denominator = math.sqrt(sum1) * math.sqrt(sum2)
if not denominator:
return 0.0
else:
return float(numerator) / denominator
# 计算文档与查询的相似度
similarities = []
for doc_tfidf in documents_tfidf:
similarity = cosine_similarity(query_tfidf, doc_tfidf)
similarities.append(similarity)
# 按相似度排序并返回结果
sorted_documents = sorted(zip(documents, similarities), key=lambda x: x[1], reverse=True)
# 打印结果
for i, (doc, score) in enumerate(zip(documents, similarities)):
print(f"Document {i+1}: {doc}\nScore: {score}\n")

复制代码

总结

关键词匹配是RAG搜刮中的一个很告急的方法之一，但是关键词匹配的缺点也很明显，就是关键词匹配的召回率很低，由于关键词匹配只匹配了关键词，而没有匹配到关键词的上下文。所以一样平常需要结合语义搜刮去一起举行。可以参考我的另一片先容语义搜刮的文章去举行双路召回搜刮。【AIGC】AI怎样匹配RAG知识库: Embedding实践，语义搜刮
在上面我们的实践中，我们使用jieba库去举行分词，然后通过TF-IDF算法去盘算关键词的权重，然后通过余弦相似度去盘算文档和查询的相似度，最后通过相似度去排序，返回结果。基本上这个一个比较通用的关键词匹配RAG数据库的方法。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【AIGC】AI怎样匹配RAG知识库：关键词搜刮

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云