如何通过Java代码将 PDF文档转为 HTML格式

打印 上一主题 下一主题

主题 938|帖子 938|积分 2814

虽然PDF文件适合用于打印和发布,但不适合所有类型的文档。例如,包含复杂图表和图形的文档可能无法在PDF中呈现得很好。但是HTML文件可以在任何可运行浏览器的计算机上进行阅读并显示。并且HTML还具有占用服务器资源较小,便于搜索引擎收录的特点。那么今天这篇文章就将展示如何通过Java应用程序将PDF文档转为HTML格式。下面是我整理的具体步骤及方法,并附上Java代码供大家参考。

  • 将PDF文档转换为HTML文件
  • 将PDF文档转换为嵌入SVG的HTML文件
  • 将PDF文档转换为HTML流
代码编译环境:
IntelliJ IDEA 2019(jdk 1.8.0)
PDF Jar包:Free Spire.PDF for Java 5.1.0
引入jar

导入方法1:
手动引入。将Free Spire.PDF for Java下载到本地,解压,找到lib文件夹下的Spire.PDF.jar文件。在IDEA中打开如下界面,将本地路径中的jar文件引入Java程序:

导入方法2:如果您想通过 Maven安装,则可以在 pom.xml 文件中添加以下代码导入 JAR 文件。
  1. <repositories>
  2.         <repository>
  3.             <id>com.e-iceblue</id>
  4.             <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
  5.         </repository>
  6.     </repositories>
  7. <dependencies>
  8.     <dependency>
  9.         <groupId>e-iceblue</groupId>
  10.         <artifactId>spire.pdf.free</artifactId>
  11.         <version>5.1.0</version>
  12.     </dependency>
  13. </dependencies>
复制代码
将PDF文档转换为HTML文件

我们可以使用 PdfDocument.saveToFile(String filename, FileFormat.HTML) 方法,可以直接将PDF文档转换为HTML文件。具体步骤如下。

  • 创建PdfDocument的对象。
  • 使用PdfDocument.loadFromFile() 方法加载PDF文件。
  • 使用PdfDocument.saveToFle() 方法将PDF文件另存为HTML文件。
完整代码

Java
  1. import com.spire.pdf.*;
  2. public class convertPDFToHTML {
  3.     public static void main(String[] args) {
  4.         //创建PdfDocument的对象
  5.         PdfDocument pdf = new PdfDocument();
  6.         //加载PDF文件
  7.         pdf.loadFromFile("郁金香.pdf");
  8.         //将PDF文件保存为HTML文件
  9.         pdf.saveToFile("PDFToHTML.html",FileFormat.HTML);
  10.         pdf.close();
  11.     }
  12. }
复制代码
PDF文档转换为嵌入SVGHTML文件
PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法,可以在转换时嵌入SVG。将PDF文件转换为嵌入SVG的HTML文件的详细步骤如下。

  • 创建PdfDocument的对象。
  • 使用PdfDocument.loadFromFile() 方法加载PDF文件。
  • 使用PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法启用嵌入SVG。
  • 使用PdfDocument.saveToFle() 方法将PDF文件另存为HTML文件。
完整代码

Java
  1. import com.spire.pdf.*;
  2. public class convertPDFToHTMLEmbeddingSVG {
  3.     public static void main(String[] args) {
  4.         //创建PdfDocument的对象
  5.         PdfDocument doc = new PdfDocument();
  6.         //加载PDF文件
  7.         doc.loadFromFile("郁金香.pdf");
  8.         //设置嵌入SVG
  9.         doc.getConvertOptions().setPdfToHtmlOptions(true);
  10.         //将PDF文件另存为HTML文件
  11.         doc.saveToFile("PDFToHTMLEmbeddingSVG.html", FileFormat.HTML);
  12.         doc.close();
  13.     }
  14. }
复制代码
将PDF文档转换为HTML流

Free Spire.PDF for Java还支持将PDF文档转换为HTML流。具体步骤如下。

  • 创建PdfDocument的对象。
  • 使用PdfDocument.loadFromFile() 方法加载PDF文件。
  • 使用PdfDocument.saveToStream() 方法将PDF文件保存为HTML流。
完整代码

Java
  1. import com.spire.pdf.*;
  2. import java.io.*;
  3. public class convertPDFToHTMLStream {
  4.     public static void main(String[] args) throws FileNotFoundException {
  5.         //创建PdfDocument的对象
  6.         PdfDocument pdf = new PdfDocument();
  7.         //加载PDF文件
  8.         pdf.loadFromFile("郁金香.pdf");
  9.         //将PDF文件另存为HTML流
  10.         File outFile = new File("PDFToHTMLStream.html");
  11.         OutputStream outputStream = new FileOutputStream(outFile);
  12.         pdf.saveToStream(outputStream, FileFormat.HTML);
  13.         pdf.close();
  14.     }
  15. }
复制代码
效果图


—本文完—

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

科技颠覆者

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表