ToB企服应用市场:ToB评测及商务社交产业平台

标题: 使用Python 实现 PDF 到 HTML 的转换 [打印本页]

作者: 老婆出轨    时间: 2024-5-16 15:41
标题: 使用Python 实现 PDF 到 HTML 的转换
PDF 文件是共享和分发文档的常用选择,但提取和再利用 PDF 文件中的内容大概会非常贫困。而利用 Python 将 PDF 文件转换为 HTML 是解决此标题的理想方案之一,这样做可以增强文档可访问性,使文档可搜刮,同时增强文档在差别场景中的实用性。此外,HTML 格式使得搜刮引擎能够对内容举行索引,从而更有大概在网络上被发现。借助 Python 的灵活性和易用性,无论是初学者照旧有履历的开辟人员都可以轻松高效地使用 Python 来将 PDF 转换为 HTML。
本文重点介绍如何在 Python 程序中将 PDF 转换为 HTML,主要包括以下内容:
本文介绍的方法使用了 Spire.PDF for Python 工具,可以从官网下载,也可以通过 PyPI 举行安装:
  1. pip install Spire.PDF
复制代码
 
Python PDF 转 HTML 方法概览

在 Spire.PDF for Python 中,PdfDocument 类表示一个 PDF 文档。我们可以使用该类下的 LoadFromFile() 方法加载 PDF 文件,然后使用 SaveToFile() 方法将文档生存为其他格式,如 HTML,从而轻松实现从 PDF 到 HTML 的转换。
此外,该 API 还提供了 PdfDocument.ConvertOptions 属性下的 SetConvertHtmlOptions() 方法,用于在转换过程中设置转换选项。以下是可以通报给该方法的参数,用于设置最大页数、SVG 嵌入选项、图像嵌入选项和 SVG 质量选项:
 
使用 Python 将 PDF 转换为单个 HTML 文件

以下代码示例展示了如何直接使用 Python 将 PDF 转换为 HTML,不设置任何转换选项。在这种情况下,我们只需要使用 LoadFromFile 方法加载 PDF 文件,并使用 SaveToFile 方法将其生存为 HTML 文件。转换后的 HTML 文件将是一个包含嵌入图像和其他元素的单个 HTML 文件。
  1. from spire.pdf.common import *
  2. from spire.pdf import *
  3. # 创建一个PdfDocument类的对象
  4. doc = PdfDocument()
  5. # 加载一个PDF文档
  6. doc.LoadFromFile("示例.pdf")
  7. # 将文档转换为HTML
  8. doc.SaveToFile("output/HTML/PDF转HTML.html", FileFormat.HTML)
  9. doc.Close()
复制代码
转换效果:

 
使用 Python 将 PDF 转换为不嵌入图像的 HTML

通过将 useEmbeddedSvg 参数设置为 False,我们可以将 PDF 文档转换为不嵌入图像等信息的单 HTML 文件,文档中的图像和 CSS 文件与 HTML 分离并存储在一个文件夹中。这样可以方便对转换后的 HTML 文件举行进一步编辑,以及对图像举行其他操作。
  1. from spire.pdf.common import *
  2. from spire.pdf import *
  3. # 创建一个PdfDocument类的对象
  4. doc = PdfDocument()
  5. # 加载一个PDF文档
  6. doc.LoadFromFile("示例.pdf")
  7. # 禁用SVG嵌入
  8. doc.ConvertOptions.SetPdfToHtmlOptions(False)
  9. # 将文档转换为HTML
  10. doc.SaveToFile("output/HTML/PDF转不嵌入SVG的HTML.html", FileFormat.HTML)
  11. doc.Close()
复制代码
转换效果:

 
使用 Python 将 PDF 转换为多个 HTML 文件

在 useEmbeddedSvg 设置为 False 的条件下,SetPdfToHtmlOptions 方法允许使用 maxPageOneFile(int) 参数确定每个转换后的 HTML 文件中包含的最大页数。此功能可实现将 PDF 文档在转换过程中拆分成多个文件。比方,将该参数设置为 1 将使每个页面被转换为一个单独的 HTML 文件。
  1. from spire.pdf.common import *
  2. from spire.pdf import *
  3. # 创建一个PdfDocument类的对象
  4. doc = PdfDocument()
  5. # 加载一个PDF文档
  6. doc.LoadFromFile("示例.pdf")
  7. # 禁用SVG嵌入
  8. doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False)
  9. # 将文档转换为HTML
  10. doc.SaveToFile("output/HTML/PDF转多个HTML.html", FileFormat.HTML)
  11. doc.Close()
复制代码
转换效果:

 
总结

本文演示了如何使用 Python 将 PDF 转换为 HTML,并提供了多种转换选项,比方转换为单个 HTML 文件、将 HTML 文件与图像分离以及在转换过程中拆分 PDF 文档。借助 Spire.PDF for Python,用户可以使用简单高效的方法举行 Python 中的 PDF 到 HTML 转换,并支持灵活的自定义选项。
如果在使用该 API 举行 PDF 到 HTML 转换时遇到任何标题,用户可以在 Spire 产品论坛上寻求技术支持。
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4