PDF 文件的解析

梦见你的名字 · 2024-6-29 06:23:39

1、文本 PDF 的解析

1.1、文本的提取

进行文本提取的 Python 库包括：pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber，结果最好的是 PyMuPDF，PyMuPDF 在进行文本提取时可以或许最大限度地保留 PDF 的阅读顺序，这对于双栏 PDF 文件的抽取非常有用。下面就以难度比力大的双栏 PDF 为例，来介绍利用 PyMuPDF 库进行文字抽取的结果。
我们以下面的 PDF 为例来看利用 PyMuPDF 进行文字提取的结果。

进行文本提取的代码如下：

import pymupdf
pages = pymupdf.open("./test_data/2022110404_pdf.pdf")
text = pages[0].get_text()
print(text)

复制代码

打印的结果如下：

局进行了首次 HTV-2 飞行试验，试验未取得成功，但验证了助推火箭与高超声速飞行器分离
的技术，为未来发展奠定了基础。美国国防高级研究计划局计划于 2011 年进行 HTV_2 的第
二次飞行试验。目前，美国还在开展 HCV 缩比技术验证机 HTV-3 的设计，以及 HCV 推进方案
的选型工作。
HTV-2 超高速飞行器
(2)“常规打击导弹”计划
“常规打击导弹”计划是美国空军正在研制的另外一种快速全球打击武器，以“猎鹰”
计划的“高超声速技术验证机”为基础进行研制。它也是一种无动力的高超声速滑翔飞行器，
在大气层内滑翔时间约 800 秒(后续型号将达到 3000 秒)，最大飞行距离 11000 千米，可以
投送包括“小直径炸弹”、“联合直接攻击弹药”、情报／监视／侦察／毁伤评估无人机等多
种有效载荷。目前，“常规打击导弹”的研制已进入第二阶段，将开展载荷投送飞行器的实
际设计、研制和飞行试验。美空军计划在 2012 年初进行“常规打击导弹”投送载荷飞行器
的飞行试验，2017-2020 年在本土部署首个“常规打击导弹”系统。

复制代码

1.2、表格的提取

表格提取结果比力好的库有 camelot 和 tabula ，表格又可以分为有线表和少线表。下面就分别以有线表和少线表为例来介绍 camelot 和 tabula 的利用。
我们以下面的 PDF 为例来看利用 camelot 和 tabula 进行有线表格提取的结果。

利用 camelot 进行表格提取的代码如下：

import camelot
tables = camelot.read_pdf('data.pdf')
print(tables[0].df)

复制代码

输出结果如下：

0 学校城市排名地区排名学校类型学校地址
1 江苏天一中学无锡市第 1 名锡山区第 1 名普通,公办,省级示范校,国家级重点无锡锡山区东亭二泉中路 18 号
2 无锡市第一中学无锡市第 2 名梁溪区第 1 名公办,省重点, 无锡市运河东路 98 号
3 江苏省锡山高级中学无锡市第 3 名惠山区第 1 名公办，省级示范校，省一级重点，江苏省无锡市惠山区政和大道 1 号
4 江苏省太湖高级中学无锡市第 4 名滨湖区第 1 名公办,省级示范校, 江苏省无锡市滨湖区太湖镇方桥
5 江苏省梅村高级中学无锡市第 5 名滨湖区第 2 名公办，省重点，江苏省无锡市湖滨区沁园新村 146 号
6 无锡市第一女子中学无锡市第 6 名新吴区第 1 名公办,省级示范校, 江苏省无锡市新区梅村镇梅育路
7 无锡市第三高级中学无锡市第 7 名梁溪区第 2 名公办江苏省无锡市崇宁路崇宁弄 6 号
8 无锡市洛社高级中学无锡市第 8 名新吴区第 2 名公办，省重点，江苏无锡惠山区羊腰湾 50 号
9 江苏省锡东高级中学无锡市第 9 名惠山区第 2 名普通，省重点无锡市洛社镇新兴东路
10 无锡市辅仁高级中学无锡市第 10 名锡山区第 2 名国家级重点无锡市锡山区安镇街道文瑞路 60 号

复制代码

利用 tabula 进行表格提取的代码如下：

import tabula
dfs = tabula.read_pdf("data.pdf")
print(dfs[0])

复制代码

输出结果如下：

0 学校城市排名地区排名学校类型学校地址
1 江苏天一中学无锡市第 1 名锡山区第 1 名普通,公办,省级示范校,国家级重点无锡锡山区东亭二泉中路 18 号
2 无锡市第一中学无锡市第 2 名梁溪区第 1 名公办,省重点, 无锡市运河东路 98 号
3 江苏省锡山高级中学无锡市第 3 名惠山区第 1 名公办，省级示范校，省一级重点，江苏省无锡市惠山区政和大道 1 号
4 江苏省太湖高级中学无锡市第 4 名滨湖区第 1 名公办,省级示范校, 江苏省无锡市滨湖区太湖镇方桥
5 江苏省梅村高级中学无锡市第 5 名滨湖区第 2 名公办，省重点，江苏省无锡市湖滨区沁园新村 146 号
6 无锡市第一女子中学无锡市第 6 名新吴区第 1 名公办,省级示范校, 江苏省无锡市新区梅村镇梅育路
7 无锡市第三高级中学无锡市第 7 名梁溪区第 2 名公办江苏省无锡市崇宁路崇宁弄 6 号
8 无锡市洛社高级中学无锡市第 8 名新吴区第 2 名公办，省重点，江苏无锡惠山区羊腰湾 50 号
9 江苏省锡东高级中学无锡市第 9 名惠山区第 2 名普通，省重点无锡市洛社镇新兴东路
10 无锡市辅仁高级中学无锡市第 10 名锡山区第 2 名国家级重点无锡市锡山区安镇街道文瑞路 60 号

复制代码

从结果可以看出，在提取有线表时，不管是 camelot 照旧 tabula 都能很好地进行提取，而且不须要过多的参数设置。
1.3、扫描 PDF 的解析

1.3.1、文本的提取

在从扫描的 PDF 文件中提取文本时，利用开源的 PaddleOCR，并且用 PPStructure 做版面的分析。我们照旧以下面的 PDF 文件为例，不过这是的 PDF 文件是扫描 PDF。

提取文本的代码如下：

import os
import cv2
from paddleocr import PPStructure, draw_structure_result, save_structure_res
from PIL import Image
img_path = "./bert-1.png"
table_engine = PPStructure(show_log=True)
save_folder = './output'
img = cv2.imread(img_path)
result = table_engine(img)
save_structure_res(result, save_folder, os.path.basename(img_path).split('.')[0])
font_path = './fonts/simfang.ttf'
image = Image.open(img_path).convert('RGB')
im_show = draw_structure_result(image, result, font_path=font_path)
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

复制代码

提取结果如下：

图中的左边是根据给出的版面分析结果画出来的，可以看出对双栏 PDF 做了正确的解析。右边是根据识别出来的文本以及文本的坐标画出来的，可以看出基本上和左边的版面以及内容是同等的。
1.3.1、表格的提取

我们照旧以下面的 PDF 文件为例，不过这是的 PDF 文件是扫描 PDF。

代码如下：

import os
import cv2
from paddleocr import PPStructure,draw_structure_result,save_structure_res
from PIL import Image
table_engine = PPStructure(show_log=True)
save_folder = './output'
img_path = './bert-6.png'
img = cv2.imread(img_path)
result = table_engine(img)
save_structure_res(result, save_folder,os.path.basename(img_path).split('.')[0])
for line in result:
line.pop('img')
print(line)

复制代码

在上面的输出结果中，有一行范例为 table 的输出，我们将这一行中 html 标签下的内容拷贝出来，放到一个 html 文件中，得到如下的表格：

可以看出在表头这一块照旧有一些差别，但是其他的信息基本都是正确的，应该说结果照旧不错的。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

PDF 文件的解析

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块