论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
软件与程序人生
›
前端开发
›
【AI应用落地实战】智能文档处理本地部署——可视化文档 ...
【AI应用落地实战】智能文档处理本地部署——可视化文档解析前端TextIn Par ...
天津储鑫盛钢材现货供应商
论坛元老
|
2024-11-1 18:33:10
|
显示全部楼层
|
阅读模式
楼主
主题
1878
|
帖子
1878
|
积分
5634
湘江之畔,金风抽丰送爽。前不久,2024长沙·中国1024程序员节在长沙盛放肆行。今年的程序员节主题为“
智能应用新生态
”,以科技为纽带,搭建起了一个共筑智能应用新生态的交流平台,众多技能大咖齐聚一堂,探究智能应用的新发展。
在人潮涌动的模子与工具论坛会场中,一道认识的身影格外引人注目——合合信息。作为在智能文档处理领域深研多年的一员,合合信息本次在会上带来了“智能文档处理百宝箱”的三大全新工具——
可视化文档解析前端TextIn ParseX、向量化acge-embedding模子、文档解析测评工具markdown_tester
。
听完陈诉后,回家就体验了一下此中的可视化文档解析前端工具,在这里分享给各人。
一、文档版面分析与理解
在深入探究TextIn ParseX的实践应用之前,有须要先简单讲解一下文档版面分析与理解的目的。
1.1、文档版面分析
文档版面分析是对图片或页面扫描图像上感爱好的区域进行定位和分类的过程。其目的是让呆板“看懂”文档结构,即将文档图像分割成差别类型内容的区域,并分析区域之间的关系,这是文档版面理解之前的关键步骤。
从广义上讲,大多数方法可以提炼为页面分割和逻辑结构分析
。
页面分割方法
侧重于外观,并使用视觉线索将页面分别为差别的区域,最常见的是文本、图形、图像和表格。
逻辑结构分析
侧重于为这些区域提供更细粒度的语义分类,即识别作为段落的文本区域,并将其与标题或文档标题区分开来。
1.2、文档版面理解
文档版面理解则是在版面分析的基础上,进一步对文档中的信息进行深度发掘和语义表明。它不仅要求识别文档的物理结构,还须要理解这些结构所承载的信息内容和它们之间的逻辑关系。例如,识别出文档中的标题、择要、正文段落以及它们之间的层级关系,理解表格中数据的排列方式和寄义,或者解析图像与文本之间的关联。
二、TextIn ParseX 本地实践流程
2.1、TextIn ParseX 项目简介
就我个人目前在工作中遇到的各类业务而言,现代文档情势日益多样化,这些文档不仅包罗传统的文本格式,还包括PDF、扫描件、手写文本、图片嵌入文本等多种结构,常常掺杂图像、表格、图形等非文本信息。与此同时,文档信息的冗余和噪声过滤也带来了困扰。在实际业务中,文档中关键信息常被大量冗余内容包围,比如广告、页眉页脚、参考文献等无关信息,这些噪声不仅增加相识析难度,还使得信息提取的准确性受到影响。传统的文档扫描和分析工具通常难以实用。
工欲善其事,必先利其器,TextIn ParseX项目正是在这样的配景下应运而生。该项目基于强大的智能文档处理本领,旨在设计一款工具,用于OCR或PDF解析结果的审核校对、效果测评,同时也实用于翻译软件等一系列须要可视化比对的场景。TextIn ParseX项目的开发,不仅能够提拔文档解析的服从和准确性,还能有用降低技能门槛,使得非开发者用户也能轻松上手,从而极大地进步工作服从。TextIn ParseX具备以下焦点特点:
多种扫描内容支持
:能够有用处理各类图片和扫描文档,包括手机照片和截屏等。
多语言兼容性
:支持简体中文、繁体中文、英文以及多种主流语言。
卓越的表格识别本领
:能够准确识别各种格式的表格,包括有线表格、无线表格和密集表格,并支持合并单位格的识别与还原。
准确的阅读顺序还原
:理解并还原文档的结构和元素排列,确保阅读顺序的准确性,适合多栏结构的学术论文、年报、业务陈诉、数据调研等。
自研文档树引擎
:从语义层面提取段落的embedding值,预测标题层级关系,通过构造文档树提拔检索和信息召回的效果。
2.2、下载代码与安装情况
目前合合信息团队已经将TextIn ParseX 项目开源,我们可以首先辈入TextIn ParseX 项目github仓库:https://github.com/intsig-textin/parsex-frontend
复制仓库地址,并转到本地文件夹中,打开终端输入:git clone https://github.com/intsig-textin/parsex-frontend.git如果连不上github也可以离线下载安装包后解压,导入VSCode后项目的完备结构如下所示:
项目结构是一个典范的React项目结构,此中layouts/为页面框架组件,定义页面的团体结构,modules/存储应用的状态管理逻辑,pages/为页面组件,service/则为接口服务,主要用于封装与后端API的交互逻辑。
── src/ # 源代码
│ ├── assets/ # 静态资源
│ ├── components/ # 全局通用组件
│ ├── layouts/ # 页面框架组件
│ ├── modules/ # store
│ ├── pages/ # 页面组件
│ ├── service/ # 接口服务
│ ├── utils/ # 工具函数
│ └── app.ts # 入口文件
├── public/ # 静态资源
├── config/ # 配置
│ ├── routes # 路由
│ └── config.* # 其他umi配置
├── .eslintrc.js # ESLint 配置
├── tsconfig.json # TypeScript 配置
├── package.json # 项目配置
└── README.md # 项目说明文件
复制代码
其次在终端输入npm install -g yarn安装yarn包管理器,安装完后可以输入yarn -v,如果出现版本号则说明已经成功安装:
然后输入yarn install安装依赖情况:
表现以上则说明已成功安装对应依赖情况。下载好代码和安装好情况后,在终端输入命令yarn start即可启动项目:
打开网页,输入url地址127.0.0.1:10007即可进入项目。
2.3、项目配置
首次打开项目后,须要首先辈入TextIn工作台申请api,点击https://www.textin.com/console/dashboard/setting进入控制台,新建密钥:
然后将密钥中的
x-ti-app-id
和
x-ti-secret-code
复制下来
复制完后,转到刚刚之前启动的TextInParseX页面,打开高级模式:
将刚刚复制的x-ti-app-id和x-ti-secret-code分别填入指定位置,然后就可以开始使用了!
2.4、TextIn ParseX功能测评
点击左侧上传须要扫描的PDF文件,即可看到解析目次、pdf对照以及终极的解析结果如下:
首先,我们可以看到TextIn ParseX对解析结果进行了Markdown情势的渲染。这种渲染方式不仅使文档的结构更加清楚易读,还能够支持各级标题、文本和图像的有用展示。其在解析过程中还将解析出的内容按类型进行了分类。
文本、图像、表格和公式等差别类型的信息会被明确标识并归档
。这种分类方式不仅便于用户在海量信息中进行快速检索,直观地相识文档的层次和主要内容,快速定位所需的特定信息,提拔团体工作服从。
值得注意的是,TextIn ParseX对于复杂表格和数学公式的解析本领也颇为出色。在处理复杂表格时,其能够
识别表格的行列结构,并准确提取每个单位格的内容
。对于数学公式的解析,ParseX能够
理解并渲染各种数学表达式,使得公式的展示更加规范和清楚
。
别的,TextIn ParseX还提供了非常
便捷的原文对照功能
,这一功能极大地提拔了用户的工作服从。在PDF原文中,体系会自动标注解析出的版面元素的位置,例如文本块、表格和图像等。这种可视化的标注方式,使得用户能够直观地看到解析结果与原文之间的对应关系。
在解析结果的右侧,我们可以通过点击相应的画框,快速跳转到对应的解析结果,反之,也可以在解析结果中点击具体的内容,这样体系会自动跳转回原文的相关位置。
三、智能文档处理百宝箱
除此之外,“百宝箱”还提供了
向量化模子acge_text_embedding模子(简称“acge模子”)和文档解析测评工具markdown_tester
。
此中acge_text_embedding模子是一种高精度的文本向量化模子,它将海量的文本数据转化向量,使得盘算机能够高效地盘算文本之间的相似性。
相比于传统的预训练或微调垂直领域模子,acge模子支持在差别场景下构建通用分类模子、提拔长文档信息抽取精度,且应用成本相对较低,可帮助大模子在多个行业中快速创造价值,为构建新质生产力提供强有力的技能支持。
而markdown_tester能够针对表格、段落、标题、阅读顺序以及公式等关键指标进行定量测评,并提供直观的雷达图展示结果。这样,开发者就可以直观地看到文本识别、解析和翻译的效果,从而便捷地评估产物性能。
总的来讲,智能文档处理“百宝箱”通过细分数据处理任务,有用解决了各类文档解析与知识管理的难点题目,在知识库开发、智能文档抽取、大模子预训练语料与数据管理快速入库、文档翻译等多个专业场景中展现出了广泛的应用潜力。
如需相识更多文档处理权益,接待点击下方链接,加入交流社群,随时获得最新资讯及福利。
https://www.textin.com/activity?tag=znwd-bbx&btn=tj&code=mkt-csdn241024&from=csdn-prtg
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
天津储鑫盛钢材现货供应商
论坛元老
这个人很懒什么都没写!
楼主热帖
linux shell 脚本 入门到实战详解[⭐建 ...
Flutter 3.0 发布啦~快来看看有什么新 ...
【MySQL】数据库多表操作通关教程(外键 ...
我与Java Boy的10年-从小白到资深架构 ...
深度解析KubeEdge EdgeMesh 高可用架构 ...
腾讯会议使用OBS虚拟摄像头
影音娱乐应用开发,这些关键词请查收 ...
读Java性能权威指南(第2版)笔记06_数 ...
zset底层的数据结构为什么使用调表而不 ...
centos 7.X 重启失败 表现 i8042: no c ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
区块链
Mysql
开源技术
快速回复
返回顶部
返回列表