选择合适的向量数据库以支持LangChain项目 - IT评测·应用市场-qidao123.com

from langchain_community.vectorstores import Chroma
from langchain_core.embeddings import HuggingFaceEmbeddings
from langchain_core.documents import Document
def create_chroma_vector_db():
# 创建示例文档
docs = [
Document(page_content="一群科学家带回恐龙爆发了混乱", metadata={"year": 1993, "rating": 7.7, "genre": "科幻小说"}),
Document(page_content="故事发生在1920年北洋年间中国南方，马邦德花钱买官，购得“萨南康省”的县长一职，坐“马拉的火车”赴任途中遭马匪张麻子一行人伏击", metadata={"year": 2010, "director": "姜文", "rating": 8.2}),
Document(page_content="话说孙悟空护送唐三藏前往西天取经，半路却和牛魔王合谋要杀害唐三藏，并偷走了紫霞仙子持有的月光宝盒。观音闻讯赶到，欲除掉孙悟空以免危害苍生。唐三藏慈悲为怀，愿意一命赔一命，感化劣徒，观音遂令孙悟空五百年后投胎做人，赎其罪孽。", metadata={"year": 1994, "director": "刘镇伟", "rating": 8.6}),
Document(page_content="故事背景设定在2075年，讲述了太阳即将毁灭，毁灭之后的太阳系已经不适合人类生存，而面对绝境，人类将开启“流浪地球”计划，试图带着地球一起逃离太阳系，寻找人类新家园的故事。", metadata={"year": 2019, "director": "郭帆", "rating": 8.3}),
Document(page_content="该片讲述了耿浩和好哥们郝义一场荒诞而有趣的‘寻爱之旅’。该片采用双线叙事的手法，以耿浩和康小雨婚姻破裂为叙事的起点，在郝义携耿浩前往剧组送道具途中‘寻爱’的故事中，穿插着昔日康小雨孤身前往大理并与耿浩相遇的前尘往事，讲述着在现代生活中不同人群对婚姻、生活与理想的不同追求。", metadata={"year": 2014, "genre": "喜剧"}),
]
# 加载预训练的嵌入模型
embeddings_path = "D:\\ai\\download\\bge-large-zh-v1.5"
embeddings = HuggingFaceEmbeddings(model_name=embeddings_path)
# 创建 Chroma 向量数据库
collection_name = "movies"
vector_store = Chroma.from_documents(documents=docs, embedding=embeddings, collection_name=collection_name)
return vector_store
# 创建 Chroma 向量数据库
chroma_vector_store = create_chroma_vector_db()
# 查询示例
def query_chroma_vector_db(query_text):
# 查询向量数据库
results = chroma_vector_store.similarity_search(query_text, k=2)
for result in results:
print(f"Content: {result.page_content}")
print(f"Metadata: {result.metadata}")
print("---------")
# 调用查询方法
query_chroma_vector_db("给我推荐一部评分8.5以上的电影")

复制代码

import numpy as np
import faiss
from langchain_core.embeddings import HuggingFaceEmbeddings
from langchain_core.documents import Document
def create_faiss_vector_db():
# 创建示例文档
docs = [
Document(page_content="一群科学家带回恐龙爆发了混乱", metadata={"year": 1993, "rating": 7.7, "genre": "科幻小说"}),
Document(page_content="故事发生在1920年北洋年间中国南方，马邦德花钱买官，购得“萨南康省”的县长一职，坐“马拉的火车”赴任途中遭马匪张麻子一行人伏击", metadata={"year": 2010, "director": "姜文", "rating": 8.2}),
Document(page_content="话说孙悟空护送唐三藏前往西天取经，半路却和牛魔王合谋要杀害唐三藏，并偷走了紫霞仙子持有的月光宝盒。观音闻讯赶到，欲除掉孙悟空以免危害苍生。唐三藏慈悲为怀，愿意一命赔一命，感化劣徒，观音遂令孙悟空五百年后投胎做人，赎其罪孽。", metadata={"year": 1994, "director": "刘镇伟", "rating": 8.6}),
Document(page_content="故事背景设定在2075年，讲述了太阳即将毁灭，毁灭之后的太阳系已经不适合人类生存，而面对绝境，人类将开启“流浪地球”计划，试图带着地球一起逃离太阳系，寻找人类新家园的故事。", metadata={"year": 2019, "director": "郭帆", "rating": 8.3}),
Document(page_content="该片讲述了耿浩和好哥们郝义一场荒诞而有趣的‘寻爱之旅’。该片采用双线叙事的手法，以耿浩和康小雨婚姻破裂为叙事的起点，在郝义携耿浩前往剧组送道具途中‘寻爱’的故事中，穿插着昔日康小雨孤身前往大理并与耿浩相遇的前尘往事，讲述着在现代生活中不同人群对婚姻、生活与理想的不同追求。", metadata={"year": 2014, "genre": "喜剧"}),
]
# 加载预训练的嵌入模型
embeddings_path = "D:\\ai\\download\\bge-large-zh-v1.5"
embeddings = HuggingFaceEmbeddings(model_name=embeddings_path)
# 计算文档的嵌入向量
embeddings_list = [embeddings.embed_documents([doc.page_content])[0] for doc in docs]
# 创建 FAISS 向量数据库
d = len(embeddings_list[0]) # 向量维度
index = faiss.IndexFlatL2(d) # 使用 L2 距离度量
index.add(np.array(embeddings_list).astype('float32')) # 添加向量到索引
# 创建文档 ID 映射
id_to_doc = {i: doc for i, doc in enumerate(docs)}
return index, id_to_doc
# 创建 FAISS 向量数据库
faiss_index, id_to_doc = create_faiss_vector_db()
# 查询示例
def query_faiss_vector_db(query_text, k=2):
# 计算查询向量
query_embedding = np.array([embeddings.embed_query(query_text)]).astype('float32')
# 搜索向量数据库
D, I = faiss_index.search(query_embedding, k)
# 获取结果
results = [id_to_doc[i] for i in I[0]]
for result in results:
print(f"Content: {result.page_content}")
print(f"Metadata: {result.metadata}")
print("---------")
# 调用查询方法
query_faiss_vector_db("给我推荐一部评分8.5以上的电影")

复制代码