Python办公主动化教程(001):PDF内容提取

火影  论坛元老 | 2024-9-27 00:56:51 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1756|帖子 1756|积分 5268

1、Pdfplumber介绍

pdfplumber的github所在:
  1. https://github.com/jsvine/pdfplumber/
复制代码


  • 【介绍】:pdfplumber 是一个用于处置处罚 PDF 文件的 Python 第三方库,它提供了一种方便的方式来提取 PDF 文件中的文本、表格和其他信息。
  • 【功能】:pdfplumber 主要用于分析和提取 PDF 文件中的文本、表格、图像等信息。
    实用版本:支持 Python 3.6 及以上版本。
  • 【特点】:简单易用、准确性高、多平台支持(包括 Windows、Mac 和 Linux)、功能强大。
  • 【安装】:pip install pdfplumber
2、内容提取

【1】读取page对象
代码:
  1. import pdfplumber
  2. with pdfplumber.open('./file/test.pdf') as read_pdf:
  3.     # 读取page对象
  4.     print(read_pdf.pages)
复制代码
输出效果:

【2】打印完整内容
代码:
[code]import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    pages = read_pdf.pages
    for page in range(len(pages)):
        text = read_pdf.pages

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

火影

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表