深入探索PDF源码剖析:从PDF到Excel的数据统计分析找到正文

[复制链接]
发表于 2026-2-8 19:23:07 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
在数字化期间,数据已成为企业决议和业务运营的关键。PDF文档作为一种广泛利用的文件格式,此中蕴含着大量有代价的信息。然而,PDF文档的结构和格式使得直接对其举行数据提取和分析变得复杂。为相识决这个题目,我们采取了一种创新的方法:将PDF文档转换为HTML格式,再将HTML内容转换为Excel格式,以便举行深入的数据统计分析。
在探索这一方法的过程中,我们发现了一些风趣的征象,尤其是在页眉页脚和页码信息的出现上。这些高频内容为我们提供了关于文档结构和内容的告急线索。
PDF到HTML的转换

起首,我们利用专业的PDF转换工具将PDF文档转换为HTML格式。这个工具可以或许辨认PDF文档中的文本内容,并将其结构转换为HTML格式,生存了原有的格式和结构。转换后的HTML文档可以被欣赏器打开,而且其内容可以被进一步处置处罚。
HTML到Excel的转换

接下来,我们利用HTML转Excel工具将HTML内容转换为Excel格式。这个工具可以或许辨认HTML中的文本内容,并按照表格的格式将其转换为Excel表格。每个单位格对应HTML中的一个文本元素,使得我们可以或许将HTML中的内容以Excel表格的情势举行统计分析。
  1. import json
  2. import os
  3. import re
  4. import fitz
  5. import pandas as pd
  6. from bs4 import BeautifulSoup
  7. from tqdm import tqdm
  8. import html
  9. def is_contain_chinese(check_str):
  10.     """ 判断字符串中是否包含中文 """
  11.     for char in check_str:
  12.         # 检查字符的Unicode编码是否在中文范围内
  13.         if '\u4e00' <= char <= '\u9fff':
  14.             return True
  15.     return False
  16. def pdf2html(input_path, html_path):
  17.     doc = fitz.open(input_path)
  18.     print(doc)
  19.     chinese_html_content = "<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>Title</title></head><body style="display: flex;justify-content: center;flex-direction: column;background: #0e0e0e;align-items: center;">"
  20.     html_content = "<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>Title</title></head><body style="display: flex;justify-content: center;flex-direction: column;background: #0e0e0e;align-items: center;">"
  21.     for page in tqdm(doc):
  22.         html_content += page.getText('html')
  23.         check_html_content = html.unescape(page.getText('html'))
  24.         if 'image' in check_html_content:
  25.             continue
  26.         if is_contain_chinese(check_html_content)
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表