使用PDFMiner.six剖析PDF数据 - ToB企服应用市场:ToB评测及商务社交产业平台

复制代码

复制代码

复制代码

page# 1:
产品主要功能包括数据采集、数据治理以及数据产品应用。企业典型应用场景利用 AI 算法实现业务分类、聚类、回归预测以及时间序列预测等。在销售领域基于历史数据实现销售预测，基于用户特征数据对客户分类实现精准营销；在采购领域利用历史数据预测采购价格，基于多维度指标实现供应商综合评价模型等。
page# 2:
各类政策法规进行整理和归纳，帮助用户更加方便快捷地获取所需的政策信息。。。。

复制代码

usage: pdf2txt.py [-h] [--version] [--debug] [--disable-caching] [--page-numbers PAGE_NUMBERS [PAGE_NUMBERS ...]]
[--pagenos PAGENOS] [--maxpages MAXPAGES] [--password PASSWORD] [--rotation ROTATION] [--no-laparams]
[--detect-vertical] [--line-overlap LINE_OVERLAP] [--char-margin CHAR_MARGIN] [--word-margin WORD_MARGIN]
[--line-margin LINE_MARGIN] [--boxes-flow BOXES_FLOW] [--all-texts] [--outfile OUTFILE]
[--output_type OUTPUT_TYPE] [--codec CODEC] [--output-dir OUTPUT_DIR] [--layoutmode LAYOUTMODE]
[--scale SCALE] [--strip-control]
files [files ...]
To extract all text from pdf:
pdf2txt.py --all-texts ../samples/manual.pdf
To extract all images from pdf:
pdf2txt.py --output-dir images ../sample03.pdf

复制代码

复制代码

from io import StringIO
from pdfminer.high_level import extract_text_to_fp
from pdfminer.layout import LAParams
output = StringIO()
with open('example.pdf', 'rb') as pdf_file:
extract_text_to_fp(pdf_file, output, laparams=LAParams(), output_type='html', codec=None)
with open('example.html', 'a') as html_file:
html_file.write(output.getvalue())

复制代码