论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
开源技术
›
开源技术
›
小体积大聪明!IBM开源的文档解析神器SmolDocling怎样让 ...
小体积大聪明!IBM开源的文档解析神器SmolDocling怎样让复杂文档处置处罚变 ...
吴旭华
论坛元老
|
5 天前
|
显示全部楼层
|
阅读模式
楼主
主题
1762
|
帖子
1762
|
积分
5286
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
每天面对扫描文件、手写笔记、代码截图等复杂文档,你是否还在手动整理排版?本日介绍的这款由
IBM与Hugging Face
团结推出的开源模型
SmolDocling
,或许能成为你的效率救星。它仅需256MB内存,就能将图片中的文字、代码、公式、图表等元素一键转为布局化文档,彻底解放你的双手!
一、SmolDocling是什么?
SmolDocling是基于
视觉语言模型(VLM)
技能开辟的文档处置处罚工具,属于轻量级AI模型家属SmolVLM的最新成员。作为
环球最小的视觉语言模型
(仅256M参数),它无需高性能设备,平凡笔记本电脑即可流畅运行。其焦点使命是
将任意图片中的复杂内容转化为可编辑的布局化数据
,支持OCR文字辨认、代码块提取、数学公式转换等十多种功能,堪称“文档解析领域的瑞士军刀”。
二、四大焦点功能亮点
多模态辨认,覆盖全场景需求
无论是扫描的条约、手写的笔记,照旧编程教材中的代码截图,SmolDocling都能精准解析:
文字提取
:支持120+语言OCR,连潦草手写体也能辨认(需字迹清楚)
代码还原
:保存缩进和语法格式,直接生成可运行的代码片段
公式转换
:将图片中的数学公式转为LaTeX文本,学术党福音
图表解析
:主动提取柱状图、折线图等图表数据,生成布局化表格
小体积大能量,当地部署无压力
相比动辄数十GB的大模型,SmolDocling的微型体积(约1.2GB)让它在平凡设备上也能快速响应。实测显示,CPU环境下处置处罚单页文档仅需3-5秒,搭配GPU更可压缩至1秒以内,彻底告别云端服务的高延迟和高费用。
DocTags布局化输出,买通工作流
独创的
DocTags标记语言
将解析效果统一封装,例如:
<text>人工智能是未来趋势</text>
<table cols="3"><row><cell>年份</cell><cell>市场规模</cell>...</row></table>
<code lang="python">print("Hello World")</code>
复制代码
用户可一键转换为Markdown、HTML等格式,无缝衔接Notion、Typora等工具。
开源生态,自由定制
项目已在Hugging Face平台完全开源,开辟者可通过微调模型适配特定场景(如医疗陈诉解析、财务表格辨认),企业用户还能私有化部署保障数据安全。
三、小白也能上手的操作指南
只需5行Python代码即可体验完备功能:
# 安装核心库
pip install transformers docling_core
# 加载图片与模型
image = load_image("报告截图.jpg")
processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
model = AutoModelForVision2Seq.from_pretrained("ds4sd/SmolDocling-256M-preview")
# 生成结构化文档
inputs = processor(text="Convert this page to docling.", images=image)
doctags = model.generate(**inputs)
print(doctags)
复制代码
操作贴士
:
优先利用分辨率>300dpi的图片
多页文档可通过循环批量处置处罚
输出异常时实验增加max_new_tokens参数值
四、十大应用场景实测
我们测试了多个真实案例,发现它在这些场景中表现惊艳:
学术文献数字化
:将扫描版论文中的公式、参考文献主动编号
聚会会议纪要整理
:拍照白板手写内容,直接生成带层级的聚会会议记录
编程教学
:教材中的代码示例截图→可实验的Jupyter Notebook
条约比对
:辨认扫描件中的关键条款并高亮差异点
数据分析
:提取财报图片中的复杂表格→Excel可编辑数据
五、为什么说它重新界说了文档处置处罚?
在AI工具广泛追求大参数的本日,SmolDocling反其道而行,通过
精准的模型剪枝和任务定向优化
,实现了“小模型解决大问题”的突破。相较于传统方案,它有三大革命性上风:
对比项传统方案SmolDocling硬件要求需要高性能服务器平凡电脑/手机即可运行处置处罚速度单页30秒以上平均3秒/页(CPU环境)功能完备性需多个工具组合一站式解决数据隐私依赖云端传输支持完全当地化处置处罚 正如IBM研究院负责人所说:“
这不是一个简单的OCR工具,而是文档智能化的基础设施。
项目已开源至Hugging Face社区:
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
吴旭华
论坛元老
这个人很懒什么都没写!
楼主热帖
【云原生】第二篇--容器管理工具 Docke ...
数据库系统课程设计(高校成绩管理数据 ...
《原CSharp》第二回 巧习得元素分类 子 ...
使用TrueNas(FreeNas)进行华为手机备 ...
JVM虚拟机性能监控与故障处理工具(3) ...
【图论】—— 有向图的强连通分量 ...
java中==和equals区别
Spark 总复习
mamba-ssm安装building wheel卡着不动 ...
AWVS漏洞扫描器的使用
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
运维.售后
数据仓库与分析
Mysql
物联网
快速回复
返回顶部
返回列表