十念 发表于 2024-12-20 05:20:17

本地高精度OCR!由GPT-4o-mini驱动的开源OCR!

https://i-blog.csdnimg.cn/img_convert/df3dca74858041c8bffa950d99b48d38.png
如果你正在探求一款高精度、本地运行、支持复杂布局的 OCR 工具,那么 Zerox OCR 无疑是一个极佳的选择。
Zerox OCR 会先将 PDF 文件转换成图像,再由 GPT-4o-mini模型识别并输出 Markdown,末了将所有页面对应的 Markdown 结果,汇总在一起形成完备的 Markdown 文档。
它不仅支持零样本 OCR,还可以轻松处置惩罚表格、图表等复杂布局,最将 OCR 结果以 Markdown 格式输出,优化了信息提取的便捷性。
https://i-blog.csdnimg.cn/img_convert/214401dee4e8edadffc7bfe1910ca37f.png
核心上风

1、零样本 OCR
使用 GPT-4o-mini 模型进行文本识别,可以大概处置惩罚完全陌生的 PDF、图片等文档类型,不需要事先训练数据,即可提供高精度的 OCR 结果。
2、Markdown 输出格式
在 OCR 转换过程中,Zerox 将每个识别的页面转化为简便的 Markdown 格式,方便对文本进行后期处置惩罚和整理。
对于开辟者或文档处置惩罚职员来说,这种格式极具实用性,易于导入到其他系统中。
3、支持复杂文档
不仅仅是简单的文本,Zerox 还可以处置惩罚包含表格、图表等复杂布局的文件。无论是扫描版 PDF 还是其他格式,Zerox 都可以对它们进行 OCR 识别,生成准确的文本内容。
4、本地运行与 API 支持
支持本地运行,无需担心隐私泄露问题。别的,它还提供了 API 接口,方便集成到你的应用中,提升业务流程的主动化和效率。
技术栈



[*] Python
[*] JavaScript
[*] TypeScipt
工作流程



[*] 提交文件:支持的文件格式包括 PDF、DOCX、图片等,你可以轻松提交多种格式的文件进行 OCR 处置惩罚。
[*] 文件转图像:起首会将文档转换为图像,以便后续进行图像识别。
[*] GPT-4o-mini 转换:每个生成的图像将被发送至 GPT-4o-mini 模型进行文本识别。
[*] 汇总 Markdown:所有页面的 Markdown 结果被汇总成一个完备的 Markdown 文档,便于进一步处置惩罚和分析。
如何安装使用 Zerox?

Zerox OCR 除了提供有在线Demo可以使用,还提供有Node和Python的API包进行调用。
无需下载,即可在线体验 Zerox 的强盛 OCR 能力

https://i-blog.csdnimg.cn/img_convert/f5d181604afab7d7fbb736c8b2b9bbb1.png
下面是以Python包安装方法及使用示例

pip install py-zerox
用法(必须先设置好GPT API 等必要参数):
from pyzerox import zerox
import os
import json
import asyncio

async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported

    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)

    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
    return result


# run the main function:
result = asyncio.run(main())

# print markdown result
print(result)
结果:
https://i-blog.csdnimg.cn/img_convert/3049735c41ed19940a8b7a5b1626b55e.png
结语

Zerox OCR 是一款功能强盛的本地开源工具,基于 GPT-4o-mini,可以大概高效处置惩罚复杂文档,并以 Markdown 格式输出,适合需要准确 OCR 处置惩罚的用户。无论你是开辟者,还是需要处置惩罚大量文档的专业人士,Zerox OCR 都是一个值得一试的办理方案。
赶快下载试用,或体验在线版本,解锁文档处置惩罚的更多可能吧!
项目地点:https://github.com/getomni-ai/zerox
在线体验:https://getomni.ai/ocr-demo

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 本地高精度OCR!由GPT-4o-mini驱动的开源OCR!