怎样用Python将pdf文件转化为高清图片

打印 上一主题 下一主题

主题 1015|帖子 1015|积分 3045

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最近在整理文档,需要将文档进行OCR辨认,然后布局化。直接解析pdf文档,行不通,由于文档里面是图片。于是采取先转图片,然后OCR,然后布局化。下面是pdf文档转图片的方法。
  1. import fitz  # PyMuPDF
  2. def pdf_to_images(pdf_path, images_folder):
  3.     # 打开PDF文件
  4.     document = fitz.open(pdf_path)
  5.    
  6.     for page_num in range(len(document)):
  7.         # 获取页面
  8.         page = document[page_num]
  9.         
  10.         # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
  11.         pix = page.get_pixmap(dpi=300)
  12.         
  13.         # 图片文件名
  14.         image_name = f"page_{page_num + 1}.png"
  15.         image_path = f"{images_folder}/{image_name}"
  16.         
  17.         # 保存图片
  18.         pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
  19.     # 关闭PDF文档
  20.     document.close()
  21. # 使用示例
  22. pdf_path = 'example.pdf'  # PDF文件路径
  23. images_folder = 'images'  # 图片保存文件夹
  24. pdf_to_images(pdf_path, images_folder)
复制代码
清楚度可以通过dpi参数控制。
如果你还没有安装 pymupdf,请安装:
  1. pip install pymupdf
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宝塔山

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表