数据仓库与分析使用chatgpt api快速分析pdf

知者何南 发表于 2024-6-9 15:38:44

使用chatgpt api快速分析pdf

需求背景

搞质料的兄弟经常要分析pdf，然后看到国外有产物是专门调用chatpdf来分析pdf的，以是就来问我能不能帮他也做一个出来。正好我有chatgpt的api，以是就研究了一下这玩意怎么弄。
需求分析

由于chatgpt是按字符算钱的，以是如果把整个pdf文本全部塞进去，固然效果是好了，但是钱花的巨快。测试的时候不小心传了个86页的pdf进去，好家伙，直接余额变负值了，一下子花了6刀多。。。。以是我们只能先对pdf做预处置惩罚，重要使用了langchain包加载和生成向量库
引入依靠
from langchain.document_loaders import PyPDFLoader
from langchain.indexes.vectorstore import VectorstoreIndexCreator
from langchain.vectorstores.chroma import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.indexes.vectorstore import VectorStoreIndexWrapper
生成向量
# https://chatpdf4cn.com/
def load_pdf_and_save_to_index(file_path, index_name):
loader = PyPDFLoader(file_path)
index = VectorstoreIndexCreator(vectorstore_kwargs={"persist_directory":get_index_path(index_name)}).from_loaders({loader})
print('save')

index.vectorstore.persist()

加载向量库
def load_index(index_name):
index_path=get_index_path(index_name)
embedding = OpenAIEmbeddings()
vectordb = Chroma(
persist_directory=index_path,
embedding_function=embedding
)
return VectorStoreIndexWrapper(vectorstore=vectordb)
最后调用chatgpt访问
load_pdf_and_save_to_index(file_path, index_name)
index = load_index(index_name)

ans = index.query("文章中提到的两种磁化模式有什么区别？",chain_type_kwargs={}) #RetrievalQAWithSourcesChain

print(ans)
附上完备项目试用地址
chatpdf4cn
调用chatgpt接口照旧蛮贵的，以是限制了试用次数，如果有需要的可以联系我开放限制，希望能反馈一些使用意见。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

使用chatgpt api快速分析pdf