三尺非寒 发表于 2025-4-18 21:28:12

最强开源视觉大模型Qwen2.5-VL:当地摆设完全免费

媒介

https://i-blog.csdnimg.cn/img_convert/b53d8cf9600b7cfeb45953c0698c621f.png
Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型,较前身 Qwen2-VL 实现了重大飞跃。该模型不仅能够辨认花、鸟、鱼、昆虫等常见物体,还能分析图像中的复杂文本、图表、图标、图形和布局,为多模态 AI 树立了新尺度。Qwen2.5-VL 具备高度署理本领,支持动态推理和工具指导,适用于计算机和手机等多种设备。
一、技术功能与优势


[*]模型概述


[*] Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型。
[*] 较前身 Qwen2-VL 有重大飞跃,树立了多模态 AI 新尺度。

[*]核心功能


[*] 物体辨认:能够辨认花、鸟、鱼、昆虫等常见物体。https://i-blog.csdnimg.cn/img_convert/5798edc02da180022d37baa9846dd814.jpeg
[*] 复杂文本与图形分析:可分析图像中的文本、图表、图标、图形和布局。
https://i-blog.csdnimg.cn/img_convert/a845abd39f67bb723d60c5b7011ed8b3.png
准确率能达到80-90%,太飒了....
https://i-blog.csdnimg.cn/img_convert/00c56031094022ca4099c56d962053ff.png


[*] 视频明确:支持凌驾一小时视频的明确,精确定位特定事件。
[*] 对象定位:通过天生界限框或点,准确定位图像中的对象。
[*] 布局化输出:提供稳定的 JSON 输出,支持坐标和属性。

[*]行业应用


[*] 文档处置惩罚:支持扫描文档(如发票、表格)的布局化输出。
[*] 金融与商业:在金融和商业领域具有紧张应用价值。

[*]性能体现


[*] 在基准测试中体现优秀,优于 Gemini 2 Flash、GPT-4o 和 Claude 3.5 Sonnet 等领先模型。
[*] 显现了处置惩罚多领域使命的多功能性。
https://i-blog.csdnimg.cn/img_convert/ccaee41c0958465703dc5c0b5caa7923.png
二、当地摆设Qwen2.5

在电脑上先安装好 Git 和 Python 环境。如果没有安装,可以自行下载安装。本文使用的是 Python 3.10.6 版本。点击下载 Python
1. 克隆 Qwen2.5-VL 仓库并进入项目目录

git clone https://github.com/QwenLM/Qwen2.5-VL   cd Qwen2.5-VL   

2. 安装 Web 应用程序所需的依靠项

pip install -r requirements_web_demo.txt   

3. 安装支持 CUDA 的 PyTorch

为确保与 GPU 兼容,致意装支持 CUDA 的最新版本的 PyTorch、TorchVision 和 TorchAudio。即使已经安装了 PyTorch,运行 Web 应用程序时也大概会碰到问题,因此发起更新:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124   

4. 更新 Gradio 和 Gradio Client

为避免连接和 UI 相干的错误,发起更新 Gradio 和 Gradio Client:
pip install -U gradio gradio_client   

5. 下载并安装模型

以下是模型的下载安装选项,统共有 3 个选择:
较小的 3B 模型 恰当 GPU 内存有限的笔记本电脑(比方 8GB VRAM):
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"   

7B 模型 显存高于 8G 的可以选择 7B 模型,性能更强、结果更好:
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"   

72B 模型 如果有专业级别的 GPU,可以直接使用 72B 的最大模型,性能最强:
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"   

安装成功会出现如下页面
https://i-blog.csdnimg.cn/img_convert/7b63d9ebb60fd11fe940444f996b85e2.png
6. 启动 Web 应用程序

在浏览器中打开本地链接 http://127.0.0.1:7860 即可使用。   

https://i-blog.csdnimg.cn/img_convert/53d3d242726b1156b9190eddda438b76.png
7. 使用示例

您可以上传带有文本和多个图形的图像,并让模型对其进行解释。即使是较小的 3B 模型也体现出令人印象深刻的性能,可以辨认图像中的复杂细节。
https://i-blog.csdnimg.cn/img_convert/308c74d279df0adce4637c87c2aac5a9.png
8. 替换方案

如果你的电脑硬件配置不足,无法当地摆设 Qwen2.5-VL,可以直接使用官方提供的免费平台。虽然免费平台使用的是共享 GPU,并且有使用额度限制,但它的最大优势在于可以直接免费体验 Qwen2.5-VL 最强的 72B 模型!下面是测试结果,结果不错
https://i-blog.csdnimg.cn/img_convert/801e63c0eddd1fa39059f509e8acf015.png
9. 开源模型下载路径

Qwen2.5-VL 3个完备开源版本已经托管在hugging face上,可以自行去下载
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5   

https://i-blog.csdnimg.cn/img_convert/54558650ca72795fe5fba60575fa3578.png
怎样学习AI大模型 ?

“开始掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少偕行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将紧张的AI大模型资料包罗AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【包管100%免费】
页: [1]
查看完整版本: 最强开源视觉大模型Qwen2.5-VL:当地摆设完全免费