标题: PDF 文件的解析 [打印本页] 作者: 梦见你的名字 时间: 2024-6-29 06:23 标题: PDF 文件的解析 1、文本 PDF 的解析
1.1、文本的提取
进行文本提取的 Python 库包括:pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber,结果最好的是 PyMuPDF,PyMuPDF 在进行文本提取时可以或许最大限度地保留 PDF 的阅读顺序,这对于双栏 PDF 文件的抽取非常有用。下面就以难度比力大的双栏 PDF 为例,来介绍利用 PyMuPDF 库进行文字抽取的结果。
我们以下面的 PDF 为例来看利用 PyMuPDF 进行文字提取的结果。