微软开源!Office 文档轻松转 Markdown!
大家好,我是 Java陈序员。今天,给大家先容一款微软开源的文档转 Markdown 工具。
关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典盘算机电子书籍等。
项目先容
MarkItDown —— 微软开源的 Python 工具,可以或许将多种常见的文件格式(如 PDF、PowerPoint、Word、Excel、图像、音频和 HTML 等)转换为 Markdown 格式。
功能特色:
[*]支持将常用的 Office 文档转换为 Markdown 格式
[*]提供了简单易用的 Python API 和 REST API
[*]一键安装、转换
安装利用
Pip 一键安装
1、利用 Pip 一键安装
在 Windows 中,可以利用 Pip 一键安装 MarkItDown, 需先安装 Python 环境。
pip install markitdown2、一键转换
安装好 MarkItDown 后,打开命令行窗口输入命令即可对文件进行转换。
如将 Excel 文件 test.xlsx 进行转换:
https://chen-coding.oss-cn-shenzhen.aliyuncs.com/create-center/MarkItDown/img-20250103114057.png
在命令行窗口输入如下命令:
markitdown test.xlsx > test.md或者利用 -o 指定输出文件:
markitdown test.xlxs -o test.md转换后的 Markdown 文件 test.md:
https://chen-coding.oss-cn-shenzhen.aliyuncs.com/create-center/MarkItDown/img-20250103122110.png
Python API
MarkItDown 支持在 Python 中利用,可通过如下代码实现文件转换功能:
from markitdown import MarkItDown
# 初始化 MarkItDown 对象
markitdown = MarkItDown()
# 转换 Excel 文件为 Markdown 格式
result = markitdown.convert("test.xlsx")
# 打印转换后的 Markdown 内容
print(result.text_content)Docker 部署
1、运行 Docker 容器
docker run -d --name markitdown -p 8000:8000 pig4cloud/markitdown2、容器启动成功后,访问 API 文档
http://{ip/域名}:8000/docshttps://chen-coding.oss-cn-shenzhen.aliyuncs.com/create-center/MarkItDown/img-20250103111753.png
3、REST API 调试
[*]利用在线 Swagger 文档调试
https://chen-coding.oss-cn-shenzhen.aliyuncs.com/create-center/MarkItDown/img-20250103113414.png
[*]利用 Postman 进行调试
https://chen-coding.oss-cn-shenzhen.aliyuncs.com/create-center/MarkItDown/img-20250103112959.png
[*]Curl 命令调试
curl -X 'POST' \
'http://localhost:8000/upload/' \
-H 'Content-Type: multipart/form-data' \
-F 'file=@test.xlxs'REST API 返回的 Markdown 格式文本,可以直接嵌入到 Markdown 文档中,或者通过其他工具进行 ETL 进一步处理。
总结
MarkItDown 不仅仅支持常用的文档转换,还支持与大模型进行集成,详细的利用可参考项目文档。
尽管 MarkItDown 实现了大部分文件格式转换为 Markdown 的功能,但是对于一些格式较为复杂的报表文件,转换效果可能不太理想,期待后续版本迭代优化。
假如你在日常生活中,需要将文件转换为 Markdown, 不妨试试 MarkItDown.
项目地址:https://github.com/microsoft/markitdown最后
推荐的开源项目已经收录到 GitHub 项目,欢迎 Star:
https://github.com/chenyl8848/great-open-source-project或者访问网站,进行在线浏览:
https://chencoding.top:8090/#/https://chen-coding.oss-cn-shenzhen.aliyuncs.com/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20240629100336.png
大家的点赞、收藏和评论都是对作者的支持,如文章对你有帮助还请点赞转发支持下,谢谢!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]