瑞星 发表于 2025-3-2 14:27:12

最强开源视觉大模子Qwen2.5-VL:本地部署完全免费

前言

https://i-blog.csdnimg.cn/img_convert/b53d8cf9600b7cfeb45953c0698c621f.png
Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模子,较前身 Qwen2-VL 实现了巨大飞跃。该模子不但能够辨认花、鸟、鱼、昆虫等常见物体,还能分析图像中的复杂文本、图表、图标、图形和布局,为多模态 AI 树立了新标准。Qwen2.5-VL 具备高度代理能力,支持动态推理和工具指导,适用于计算机和手机等多种设备。
一、技术功能与上风


[*]模子概述


[*] Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模子。
[*] 较前身 Qwen2-VL 有巨大飞跃,树立了多模态 AI 新标准。

[*]核心功能


[*] 物体辨认:能够辨认花、鸟、鱼、昆虫等常见物体。https://i-blog.csdnimg.cn/img_convert/5798edc02da180022d37baa9846dd814.jpeg
[*] 复杂文本与图形分析:可分析图像中的文本、图表、图标、图形和布局。
https://i-blog.csdnimg.cn/img_convert/a845abd39f67bb723d60c5b7011ed8b3.png
准确率能达到80-90%,太飒了....
https://i-blog.csdnimg.cn/img_convert/00c56031094022ca4099c56d962053ff.png


[*] 视频理解:支持超过一小时视频的理解,准确定位特定变乱。
[*] 对象定位:通过生成界限框或点,准确定位图像中的对象。
[*] 结构化输出:提供稳固的 JSON 输出,支持坐标和属性。

[*]行业应用


[*] 文档处理:支持扫描文档(如发票、表格)的结构化输出。
[*] 金融与贸易:在金融和贸易领域具有紧张应用价值。

[*]性能体现


[*] 在基准测试中体现优异,优于 Gemini 2 Flash、GPT-4o 和 Claude 3.5 Sonnet 等领先模子。
[*] 显现了处理多领域任务的多功能性。
https://i-blog.csdnimg.cn/img_convert/ccaee41c0958465703dc5c0b5caa7923.png
二、本地部署Qwen2.5

在电脑上先安装好 Git 和 Python 环境。如果没有安装,可以自行下载安装。本文利用的是 Python 3.10.6 版本。点击下载 Python
1. 克隆 Qwen2.5-VL 堆栈并进入项目目录

git clone https://github.com/QwenLM/Qwen2.5-VL   cd Qwen2.5-VL   
2. 安装 Web 应用步伐所需的依赖项

pip install -r requirements_web_demo.txt   
3. 安装支持 CUDA 的 PyTorch

为确保与 GPU 兼容,请安装支持 CUDA 的最新版本的 PyTorch、TorchVision 和 TorchAudio。即使已经安装了 PyTorch,运行 Web 应用步伐时也可能会遇到标题,因此建议更新:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124   
4. 更新 Gradio 和 Gradio Client

为避免连接和 UI 相干的错误,建议更新 Gradio 和 Gradio Client:
pip install -U gradio gradio_client   
5. 下载并安装模子

以下是模子的下载安装选项,总共有 3 个选择:
较小的 3B 模子 适合 GPU 内存有限的笔记本电脑(例如 8GB VRAM):
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"   
7B 模子 显存高于 8G 的可以选择 7B 模子,性能更强、结果更好:
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"   
72B 模子 如果有专业级别的 GPU,可以直接利用 72B 的最大模子,性能最强:
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"   
安装乐成会出现如下页面
https://i-blog.csdnimg.cn/img_convert/7b63d9ebb60fd11fe940444f996b85e2.png
6. 启动 Web 应用步伐

在浏览器中打开本地链接 http://127.0.0.1:7860 即可使用。   
https://i-blog.csdnimg.cn/img_convert/53d3d242726b1156b9190eddda438b76.png
7. 利用示例

您可以上传带有文本和多个图形的图像,并让模子对其进行解释。即使是较小的 3B 模子也体现出令人印象深刻的性能,可以辨认图像中的复杂细节。
https://i-blog.csdnimg.cn/img_convert/308c74d279df0adce4637c87c2aac5a9.png
8. 替代方案

如果你的电脑硬件配置不足,无法本地部署 Qwen2.5-VL,可以直接利用官方提供的免费平台。虽然免费平台利用的是共享 GPU,并且有利用额度限制,但它的最大上风在于可以直接免费体验 Qwen2.5-VL 最强的 72B 模子!下面是测试结果,结果不错
https://i-blog.csdnimg.cn/img_convert/801e63c0eddd1fa39059f509e8acf015.png
9. 开源模子下载路径

Qwen2.5-VL 3个完备开源版本已经托管在hugging face上,可以自行去下载
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5   
https://i-blog.csdnimg.cn/img_convert/54558650ca72795fe5fba60575fa3578.png
怎样学习大模子 AI ?

由于新岗位的生产服从,要优于被取代岗位的生产服从,以是现实上整个社会的生产服从是提升的。
但是具体到个人,只能说是:
“最先把握AI的人,将会比较晚把握AI的人有竞争上风”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的原理。
我在一线互联网企业工作十余年里,指导过不少偕行后辈。帮助许多人得到了学习和成长。
我意识到有许多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的许多狐疑,以是在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,许多互联网行业朋侪无法获得正确的资料得到学习提升,故此将并将紧张的AI大模子资料包括AI大模子入门学习头脑导图、精品AI大模子学习册本手册、视频教程、实战学习等录播视频免费分享出来。
https://i-blog.csdnimg.cn/blog_migrate/ff5d7fd5f46f5766762b23b1f9121454.png#pic_center
第一阶段(10天):初阶应用

该阶段让大家对大模子 AI有一个最前沿的熟悉,对大模子 AI 的理解超过 95% 的人,可以在相干讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模子和业务衔接。


[*]大模子 AI 能干什么?
[*]大模子是怎样获得「智能」的?
[*]用好 AI 的核心心法
[*]大模子应用业务架构
[*]大模子应用技术架构
[*]代码示例:向 GPT-3.5 灌入新知识
[*]提示工程的意义和核心头脑
[*]Prompt 典范构成
[*]指令调优方法论
[*]头脑链和头脑树
[*]Prompt 攻击和防范
[*]…
第二阶段(30天):高阶应用

该阶段我们正式进入大模子 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完备的基于 agent 对话机器人。把握功能最强的大模子开发框架,捉住最新的技术进展,适合 Python 和 JavaScript 步伐员。


[*]为什么要做 RAG
[*]搭建一个简单的 ChatPDF
[*]检索的底子概念
[*]什么是向量体现(Embeddings)
[*]向量数据库与向量检索
[*]基于向量检索的 RAG
[*]搭建 RAG 系统的扩展知识
[*]混合检索与 RAG-Fusion 简介
[*]向量模子本地部署
[*]…
第三阶段(30天):模子练习

恭喜你,如果学到这里,你根本可以找到一份大模子 AI相干的工作,自己也能练习 GPT 了!通过微调,练习自己的垂直大模子,能独立练习开源多模态大模子,把握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?


[*]为什么要做 RAG
[*]什么是模子
[*]什么是模子练习
[*]求解器 & 丧失函数简介
[*]小实行2:手写一个简单的神经网络并练习它
[*]什么是练习/预练习/微调/轻量化微调
[*]Transformer结构简介
[*]轻量化微调
[*]实行数据集的构建
[*]…
第四阶段(20天):贸易闭环

对环球大模子从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模子,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。


[*]硬件选型
[*]带你相识环球大模子
[*]利用国产大模子服务
[*]搭建 OpenAI 代理
[*]热身:基于阿里云 PAI 部署 Stable Diffusion
[*]在本地计算机运行大模子
[*]大模子的私有化部署
[*]基于 vLLM 部署大模子
[*]案例:怎样优雅地在阿里云私有部署开源大模子
[*]部署一套开源 LLM 项目
[*]内容安全
[*]互联网信息服务算法存案
[*]…
学习是一个过程,只要学习就会有挑衅。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成全部的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模子 AI 的正确特征了。
这份完备版的大模子 AI 学习资料已经上传CSDN,朋侪们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

https://i-blog.csdnimg.cn/blog_migrate/00d50d26803d72e8d5d75a1905815354.png#pic_center

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 最强开源视觉大模子Qwen2.5-VL:本地部署完全免费