markitdown
markitdown简介
- 将文件和办公文档,如pdf,doc等转换为Markdown的Python工具
- 项目堆栈:https://github.com/microsoft/markitdown
- 支持将如下格式文件或文档转为markdown
- PDF
- PowerPoint
- Word
- Excel
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
- HTML
- Text-based formats (CSV, JSON, XML)
- ZIP files (iterates over contents)
markitdown相关文章
- 微软开源将各种文件格式转换为 markdown 格式开源工具:markitdown
- MarkItDown:微软开源多格式文档处理工具,轻松将文件转为 Markdown 格式
Docling
Docling简介
- IBM开源文档剖析理解工具
- 项目堆栈:https://github.com/DS4SD/docling
- Docling是一个用于文档剖析和格式转换的工具,支持多种文档格式(如PDF、DOCX、PPTX等),能够快速将文档导出为Markdown和JSON格式
Docling特征
|