【PDF提取内容】如何批量提取PDF里面的笔墨内容,把内容到处表格或者批量给 ...

打印 上一主题 下一主题

主题 982|帖子 982|积分 2956

以下分别先容基于 C++ 批量提取 PDF 里笔墨内容并导出到表格,以及批量给 PDF 文件改名的实现方案、步调和应用场景。

批量提取 PDF 笔墨内容并导出到表格

应用场景



  • 文档数据整理:在处置惩罚大量学术论文、陈诉等 PDF 文档时,须要提取其中的关键信息,如标题、作者、摘要等,并整理到表格中,方便后续的数据分析和比力。
  • 信息归档:企业或机构可能有大量的条约、协议等 PDF 文档,须要将其中的重要条款、日期、金额等信息提取出来,存储到表格中举行统一管理和查询。
实现方案和步调

1. 选择符合的库



  • Poppler:用于分析 PDF 文件并提取笔墨内容。Poppler 是一个开源的 PDF 渲染库,提供了 C++ 接口,可以方便地举行 PDF 文本提取。
  • LibXL:用于创建和操作 Excel 表格。它是一个跨平台的 C++ 库,支持创建、读取和修改 Excel 文件。
2. 安装依赖库

在 Linux 系统上,可以利用包管理器安装 Poppler 和 LibXL。比方,在 Ubuntu 上可以利用以下下令安装 Poppler:
bash
  1. sudo apt-get install libpoppler-cpp-dev
复制代码
对于 LibXL,须要从其官方网站下载库文件,并将其包罗到项目中。
3. 编写代码

cpp
  1. #include <iostream>
  2. #include <fstream>
  3. #include <vector>
  4. #include <string>
  5. #include <poppler/cpp/poppler-document.h>
  6. #include <poppler/cpp/poppler-page.h>
  7. #include "libxl.h"
  8. using namespace libxl;
  9. // 提取 PDF 文件中的文字内容
  10. std::string extractTextFromPDF(const std::string& filePath) {
  11.     poppler::document* doc = poppler::document::load_from_file(filePath);
  12.     if (!doc || doc->is_locked()) {
  13.         delete doc;
  14.         return "";
  15.     }
  16.     std::string text;
  17.     for (int i = 0; i < doc->pages(); ++i) {
  18.         poppler::page* page = doc->create_page(i);
  19.         if (page) {
  20.             text += page->text().to_latin1();
  21.             delete page;
  22.         }
  23.     }
  24.     delete doc;
  25.     return text;
  26. }
  27. // 批量提取 PDF 文件内容并导出到 Excel 表格
  28. void batchExtractPDFsToExcel(const std::vector<std::string>& pdfFiles, const std::string& outputFilePath) {
  29.     Book* book = xlCreateBook();
  30.     if (book) {
  31.         Sheet* sheet = book->addSheet("PDF Text");
  32.         if (sheet) {
  33.             for (size_t i = 0; i < pdfFiles.size(); ++i) {
  34.                 std::string text = extractTextFromPDF(pdfFiles[i]);
  35.                 sheet->writeStr(i, 0, pdfFiles[i].c_str());
  36.                 sheet->writeStr(i, 1, text.c_str());
  37.             }
  38.         }
  39.         book->save(outputFilePath.c_str());
  40.         book->release();
  41.     }
  42. }
  43. int main() {
  44.     std::vector<std::string> pdfFiles = {
  45.         "file1.pdf",
  46.         "file2.pdf",
  47.         // 添加更多 PDF 文件路径
  48.     };
  49.     std::string outputFilePath = "output.xlsx";
  50.     batchExtractPDFsToExcel(pdfFiles, outputFilePath);
  51.     return 0;
  52. }
复制代码
4. 编译和运行

利用以下下令编译代码:
bash
  1. g++ -o extract_pdf extract_pdf.cpp -lpoppler-cpp -lxl
复制代码
运行生成的可执行文件:
bash
  1. ./extract_pdf
复制代码
批量给 PDF 文件改名

应用场景



  • 文件整理:当从不同泉源收集了大量 PDF 文件,文件名杂乱无章时,须要根据文件内容或特定规则对文件举行重命名,以便更好地管理和查找。
  • 数据导入:在将 PDF 文件导入到某个系统或数据库时,要求文件名遵循一定的命名规范,此时须要对文件举行批量重命名。
实现方案和步调

1. 选择符合的库

利用标准 C++ 库中的 <filesystem> (C++17 及以上)来处置惩罚文件和目次操作。
2. 编写代码

cpp
  1. #include <iostream>
  2. #include <filesystem>
  3. #include <string>
  4. namespace fs = std::filesystem;
  5. // 批量给 PDF 文件改名
  6. void batchRenamePDFs(const std::string& directoryPath) {
  7.     int counter = 1;
  8.     for (const auto& entry : fs::directory_iterator(directoryPath)) {
  9.         if (entry.is_regular_file() && entry.path().extension() == ".pdf") {
  10.             fs::path newPath = entry.path().parent_path() / (std::to_string(counter) + ".pdf");
  11.             fs::rename(entry.path(), newPath);
  12.             std::cout << "Renamed " << entry.path() << " to " << newPath << std::endl;
  13.             ++counter;
  14.         }
  15.     }
  16. }
  17. int main() {
  18.     std::string directoryPath = "./pdfs"; // 替换为实际的 PDF 文件目录
  19.     batchRenamePDFs(directoryPath);
  20.     return 0;
  21. }
复制代码
3. 编译和运行

利用以下下令编译代码:
bash
  1. g++ -std=c++17 -o rename_pdf rename_pdf.cpp
复制代码
运行生成的可执行文件:
bash
  1. ./rename_pdf
复制代码
以上代码示例提供了基本的实现思绪,你可以根据实际需求举行扩展和修改。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

来自云龙湖轮廓分明的月亮

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表