最强开源视觉大模型Qwen2.5-VL:当地摆设完全免费

打印 上一主题 下一主题

主题 1972|帖子 1972|积分 5916

媒介


Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型,较前身 Qwen2-VL 实现了重大飞跃。该模型不仅能够辨认花、鸟、鱼、昆虫等常见物体,还能分析图像中的复杂文本、图表、图标、图形和布局,为多模态 AI 树立了新尺度。Qwen2.5-VL 具备高度署理本领,支持动态推理和工具指导,适用于计算机和手机等多种设备。
一、技术功能与优势


  • 模型概述


  • Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型。
  • 较前身 Qwen2-VL 有重大飞跃,树立了多模态 AI 新尺度。

  • 核心功能


  • 物体辨认:能够辨认花、鸟、鱼、昆虫等常见物体。

  • 复杂文本与图形分析:可分析图像中的文本、图表、图标、图形和布局。

准确率能达到80-90%,太飒了....



  • 视频明确:支持凌驾一小时视频的明确,精确定位特定事件。
  • 对象定位:通过天生界限框或点,准确定位图像中的对象。
  • 布局化输出:提供稳定的 JSON 输出,支持坐标和属性。

  • 行业应用


  • 文档处置惩罚:支持扫描文档(如发票、表格)的布局化输出。
  • 金融与商业:在金融和商业领域具有紧张应用价值。

  • 性能体现


  • 在基准测试中体现优秀,优于 Gemini 2 Flash、GPT-4o 和 Claude 3.5 Sonnet 等领先模型。
  • 显现了处置惩罚多领域使命的多功能性。

二、当地摆设Qwen2.5

在电脑上先安装好 Git 和 Python 环境。如果没有安装,可以自行下载安装。本文使用的是 Python 3.10.6 版本。点击下载 Python
1. 克隆 Qwen2.5-VL 仓库并进入项目目录

  1. git clone https://github.com/QwenLM/Qwen2.5-VL   cd Qwen2.5-VL   
复制代码
2. 安装 Web 应用程序所需的依靠项

  1. pip install -r requirements_web_demo.txt   
复制代码
3. 安装支持 CUDA 的 PyTorch

为确保与 GPU 兼容,致意装支持 CUDA 的最新版本的 PyTorch、TorchVision 和 TorchAudio。即使已经安装了 PyTorch,运行 Web 应用程序时也大概会碰到问题,因此发起更新:
  1. pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124   
复制代码
4. 更新 Gradio 和 Gradio Client

为避免连接和 UI 相干的错误,发起更新 Gradio 和 Gradio Client:
  1. pip install -U gradio gradio_client   
复制代码
5. 下载并安装模型

以下是模型的下载安装选项,统共有 3 个选择:
较小的 3B 模型 恰当 GPU 内存有限的笔记本电脑(比方 8GB VRAM):
  1. python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"   
复制代码
7B 模型 显存高于 8G 的可以选择 7B 模型,性能更强、结果更好:
  1. python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"   
复制代码
72B 模型 如果有专业级别的 GPU,可以直接使用 72B 的最大模型,性能最强:
  1. python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"   
复制代码
安装成功会出现如下页面

6. 启动 Web 应用程序

  1. 在浏览器中打开本地链接 http://127.0.0.1:7860 即可使用。   
复制代码

7. 使用示例

您可以上传带有文本和多个图形的图像,并让模型对其进行解释。即使是较小的 3B 模型也体现出令人印象深刻的性能,可以辨认图像中的复杂细节。

8. 替换方案

如果你的电脑硬件配置不足,无法当地摆设 Qwen2.5-VL,可以直接使用官方提供的免费平台。虽然免费平台使用的是共享 GPU,并且有使用额度限制,但它的最大优势在于可以直接免费体验 Qwen2.5-VL 最强的 72B 模型!下面是测试结果,结果不错

9. 开源模型下载路径

Qwen2.5-VL 3个完备开源版本已经托管在hugging face上,可以自行去下载
  1. https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5   
复制代码

怎样学习AI大模型 ?

“开始掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少偕行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将紧张的AI大模型资料包罗AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【包管100%免费】

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

三尺非寒

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表