IT评测·应用市场-qidao123.com技术社区

标题: Python办公主动化教程(001):PDF内容提取 [打印本页]

作者: 火影    时间: 2024-9-27 00:56
标题: Python办公主动化教程(001):PDF内容提取
1、Pdfplumber介绍

pdfplumber的github所在:
  1. https://github.com/jsvine/pdfplumber/
复制代码

2、内容提取

【1】读取page对象
代码:
  1. import pdfplumber
  2. with pdfplumber.open('./file/test.pdf') as read_pdf:
  3.     # 读取page对象
  4.     print(read_pdf.pages)
复制代码
输出效果:

【2】打印完整内容
代码:
  1. import pdfplumber
  2. with pdfplumber.open('./file/test.pdf') as read_pdf:
  3.     # 读取page对象
  4.     pages = read_pdf.pages
  5.     for page in range(len(pages)):
  6.         text = read_pdf.pages.extract_text()
  7.         print(f'--------------第{page + 1}页内容---------------')
  8.         print(text)
复制代码
打印效果:


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4