马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
在数字化期间,数据已成为企业决议和业务运营的关键。PDF文档作为一种广泛利用的文件格式,此中蕴含着大量有代价的信息。然而,PDF文档的结构和格式使得直接对其举行数据提取和分析变得复杂。为相识决这个题目,我们采取了一种创新的方法:将PDF文档转换为HTML格式,再将HTML内容转换为Excel格式,以便举行深入的数据统计分析。
在探索这一方法的过程中,我们发现了一些风趣的征象,尤其是在页眉页脚和页码信息的出现上。这些高频内容为我们提供了关于文档结构和内容的告急线索。
PDF到HTML的转换
起首,我们利用专业的PDF转换工具将PDF文档转换为HTML格式。这个工具可以或许辨认PDF文档中的文本内容,并将其结构转换为HTML格式,生存了原有的格式和结构。转换后的HTML文档可以被欣赏器打开,而且其内容可以被进一步处置处罚。
HTML到Excel的转换
接下来,我们利用HTML转Excel工具将HTML内容转换为Excel格式。这个工具可以或许辨认HTML中的文本内容,并按照表格的格式将其转换为Excel表格。每个单位格对应HTML中的一个文本元素,使得我们可以或许将HTML中的内容以Excel表格的情势举行统计分析。
- import json
- import os
- import re
- import fitz
- import pandas as pd
- from bs4 import BeautifulSoup
- from tqdm import tqdm
- import html
- def is_contain_chinese(check_str):
- """ 判断字符串中是否包含中文 """
- for char in check_str:
- # 检查字符的Unicode编码是否在中文范围内
- if '\u4e00' <= char <= '\u9fff':
- return True
- return False
- def pdf2html(input_path, html_path):
- doc = fitz.open(input_path)
- print(doc)
- chinese_html_content = "<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>Title</title></head><body style="display: flex;justify-content: center;flex-direction: column;background: #0e0e0e;align-items: center;">"
- html_content = "<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>Title</title></head><body style="display: flex;justify-content: center;flex-direction: column;background: #0e0e0e;align-items: center;">"
- for page in tqdm(doc):
- html_content += page.getText('html')
- check_html_content = html.unescape(page.getText('html'))
- if 'image' in check_html_content:
- continue
- if is_contain_chinese(check_html_content)
复制代码 免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |