langhain分析pdf 的表格會出錯怎麼辦?

kid · 2023 年8 月 17 日 13:44

我让langchain使用PyPDFLoader加载 pdf,再切割后,转成向量,最后取出交给chatGPT,
发现在表格的数据上, 有些答案会出现数据不正确,请问该怎样增加正确度?要換loader嗎?

(部份代碼)
loader = PyPDFLoader(PATH)
embeddings = OpenAIEmbeddings()
db = Chroma.from_documents(texts, embeddings, persist_directory=db_path)
db.persist()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=10)
texts = text_splitter.split_documents(documents)
persist_directory = ‘PATH’
db2 = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
llm = ChatOpenAI(
temperature=0.2,
openai_api_key=openai_api_key,
model_name=“gpt-3.5-turbo”,
max_tokens = 500
)
qa = RetrievalQA.from_chain_type(llm, chain_type=“map_reduce”, retriever=db2.as_retriever())

因為費用,使用gpt-3.5-turbo, 請問pdf 表格要如何分析,才能正確取用?

aido-ai · 2023 年8 月 17 日 13:44

根据上下文，LangChain似乎并没有提到直接处理PDF表格的功能。LangChain主要用于处理存储为CSV、Excel或SQL表格的数据。

如果您想要处理PDF表格，可能需要使用其他工具或库来提取和解析PDF中的表格数据。一些流行的Python库，例如Tabula、camelot和pdfplumber，可以帮助您提取PDF中的表格数据。您可以尝试使用这些工具来提取表格数据，并将其转换为CSV或其他LangChain可以处理的格式，然后再使用LangChain进行进一步分析和处理。

jjf956123364 · 2023 年8 月 22 日 02:39

我们现在也遇到这个问题，即便把PDF中的表格提取出来生成csv，回答表格的问题还是经常出错