PDF 文件的解析

打印 上一主题 下一主题

主题 495|帖子 495|积分 1485

1、文本 PDF 的解析

1.1、文本的提取

进行文本提取的 Python 库包括:pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber,结果最好的是 PyMuPDF,PyMuPDF 在进行文本提取时可以或许最大限度地保留 PDF 的阅读顺序,这对于双栏 PDF 文件的抽取非常有用。下面就以难度比力大的双栏 PDF 为例,来介绍利用 PyMuPDF 库进行文字抽取的结果。
我们以下面的 PDF 为例来看利用 PyMuPDF 进行文字提取的结果。

进行文本提取的代码如下:
  1. import pymupdf
  2. pages = pymupdf.open("./test_data/2022110404_pdf.pdf")
  3. text = pages[0].get_text()
  4. print(text)
复制代码
打印的结果如下:
  1. 局进行了首次 HTV-2 飞行试验,试验未取得成功,但验证了助推火箭与高超声速飞行器分离
  2. 的技术,为未来发展奠定了基础。美国国防高级研究计划局计划于 2011 年进行 HTV_2 的第
  3. 二次飞行试验。目前,美国还在开展 HCV 缩比技术验证机 HTV-3 的设计,以及 HCV 推进方案
  4. 的选型工作。
  5. HTV-2 超高速飞行器
  6. (2)“常规打击导弹”计划
  7. “常规打击导弹”计划是美国空军正在研制的另外一种快速全球打击武器,以“猎鹰”
  8. 计划的“高超声速技术验证机”为基础进行研制。它也是一种无动力的高超声速滑翔飞行器,
  9. 在大气层内滑翔时间约 800 秒(后续型号将达到 3000 秒),最大飞行距离 11000 千米,可以
  10. 投送包括“小直径炸弹”、“联合直接攻击弹药”、情报/监视/侦察/毁伤评估无人机等多
  11. 种有效载荷。目前,“常规打击导弹”的研制已进入第二阶段,将开展载荷投送飞行器的实
  12. 际设计、研制和飞行试验。美空军计划在 2012 年初进行“常规打击导弹”投送载荷飞行器
  13. 的飞行试验,2017-2020 年在本土部署首个“常规打击导弹”系统。
复制代码
1.2、表格的提取

表格提取结果比力好的库有 camelot 和 tabula ,表格又可以分为有线表和少线表。下面就分别以有线表和少线表为例来介绍 camelot 和 tabula 的利用。
我们以下面的 PDF 为例来看利用 camelot 和 tabula 进行有线表格提取的结果。

利用 camelot 进行表格提取的代码如下:
  1. import camelot
  2. tables = camelot.read_pdf('data.pdf')
  3. print(tables[0].df)
复制代码
输出结果如下:
  1. 0          学校       城市排名      地区排名               学校类型                 学校地址
  2. 1      江苏天一中学   无锡市第 1 名  锡山区第 1 名  普通,公办,省级示范校,国家级重点     无锡锡山区东亭二泉中路 18 号
  3. 2     无锡市第一中学   无锡市第 2 名  梁溪区第 1 名            公办,省重点,         无锡市运河东路 98 号
  4. 3   江苏省锡山高级中学   无锡市第 3 名  惠山区第 1 名    公办,省级示范校,省一级重点,    江苏省无锡市惠山区政和大道 1 号
  5. 4   江苏省太湖高级中学   无锡市第 4 名  滨湖区第 1 名          公办,省级示范校,       江苏省无锡市滨湖区太湖镇方桥
  6. 5   江苏省梅村高级中学   无锡市第 5 名  滨湖区第 2 名            公办,省重点,  江苏省无锡市湖滨区沁园新村 146 号
  7. 6   无锡市第一女子中学   无锡市第 6 名  新吴区第 1 名          公办,省级示范校,       江苏省无锡市新区梅村镇梅育路
  8. 7   无锡市第三高级中学   无锡市第 7 名  梁溪区第 2 名                 公办     江苏省无锡市崇宁路崇宁弄 6 号
  9. 8   无锡市洛社高级中学   无锡市第 8 名  新吴区第 2 名            公办,省重点,      江苏无锡惠山区羊腰湾 50 号
  10. 9   江苏省锡东高级中学   无锡市第 9 名  惠山区第 2 名             普通,省重点           无锡市洛社镇新兴东路
  11. 10  无锡市辅仁高级中学  无锡市第 10 名  锡山区第 2 名              国家级重点   无锡市锡山区安镇街道文瑞路 60 号
复制代码
利用 tabula 进行表格提取的代码如下:
  1. import tabula
  2. dfs = tabula.read_pdf("data.pdf")
  3. print(dfs[0])
复制代码
输出结果如下:
  1. 0          学校       城市排名      地区排名               学校类型                 学校地址
  2. 1      江苏天一中学   无锡市第 1 名  锡山区第 1 名  普通,公办,省级示范校,国家级重点     无锡锡山区东亭二泉中路 18 号
  3. 2     无锡市第一中学   无锡市第 2 名  梁溪区第 1 名            公办,省重点,         无锡市运河东路 98 号
  4. 3   江苏省锡山高级中学   无锡市第 3 名  惠山区第 1 名    公办,省级示范校,省一级重点,    江苏省无锡市惠山区政和大道 1 号
  5. 4   江苏省太湖高级中学   无锡市第 4 名  滨湖区第 1 名          公办,省级示范校,       江苏省无锡市滨湖区太湖镇方桥
  6. 5   江苏省梅村高级中学   无锡市第 5 名  滨湖区第 2 名            公办,省重点,  江苏省无锡市湖滨区沁园新村 146 号
  7. 6   无锡市第一女子中学   无锡市第 6 名  新吴区第 1 名          公办,省级示范校,       江苏省无锡市新区梅村镇梅育路
  8. 7   无锡市第三高级中学   无锡市第 7 名  梁溪区第 2 名                 公办     江苏省无锡市崇宁路崇宁弄 6 号
  9. 8   无锡市洛社高级中学   无锡市第 8 名  新吴区第 2 名            公办,省重点,      江苏无锡惠山区羊腰湾 50 号
  10. 9   江苏省锡东高级中学   无锡市第 9 名  惠山区第 2 名             普通,省重点           无锡市洛社镇新兴东路
  11. 10  无锡市辅仁高级中学  无锡市第 10 名  锡山区第 2 名              国家级重点   无锡市锡山区安镇街道文瑞路 60 号
复制代码
从结果可以看出,在提取有线表时,不管是 camelot 照旧 tabula 都能很好地进行提取,而且不须要过多的参数设置。
1.3、扫描 PDF 的解析

1.3.1、文本的提取

在从扫描的 PDF 文件中提取文本时,利用开源的 PaddleOCR,并且用 PPStructure 做版面的分析。我们照旧以下面的 PDF 文件为例,不过这是的 PDF 文件是扫描 PDF。

提取文本的代码如下:
  1. import os
  2. import cv2
  3. from paddleocr import PPStructure, draw_structure_result, save_structure_res
  4. from PIL import Image
  5. img_path = "./bert-1.png"
  6. table_engine = PPStructure(show_log=True)
  7. save_folder = './output'
  8. img = cv2.imread(img_path)
  9. result = table_engine(img)
  10. save_structure_res(result, save_folder, os.path.basename(img_path).split('.')[0])
  11. font_path = './fonts/simfang.ttf'
  12. image = Image.open(img_path).convert('RGB')
  13. im_show = draw_structure_result(image, result, font_path=font_path)
  14. im_show = Image.fromarray(im_show)
  15. im_show.save('result.jpg')
复制代码
提取结果如下:

图中的左边是根据给出的版面分析结果画出来的,可以看出对双栏 PDF 做了正确的解析。右边是根据识别出来的文本以及文本的坐标画出来的,可以看出基本上和左边的版面以及内容是同等的。
1.3.1、表格的提取

我们照旧以下面的 PDF 文件为例,不过这是的 PDF 文件是扫描 PDF。

代码如下:
  1. import os
  2. import cv2
  3. from paddleocr import PPStructure,draw_structure_result,save_structure_res
  4. from PIL import Image
  5. table_engine = PPStructure(show_log=True)
  6. save_folder = './output'
  7. img_path = './bert-6.png'
  8. img = cv2.imread(img_path)
  9. result = table_engine(img)
  10. save_structure_res(result, save_folder,os.path.basename(img_path).split('.')[0])
  11. for line in result:
  12.     line.pop('img')
  13.     print(line)
复制代码
在上面的输出结果中,有一行范例为 table 的输出,我们将这一行中 html 标签下的内容拷贝出来,放到一个 html 文件中,得到如下的表格:

可以看出在表头这一块照旧有一些差别,但是其他的信息基本都是正确的,应该说结果照旧不错的。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦见你的名字

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表