曂沅仴駦 发表于 2024-9-3 22:14:25

阿里重磅开源Qwen2-VL:超越人类的视觉明白能力,从医学影像到手写辨认,这

阿里重磅开源Qwen2-VL:超越人类的视觉明白能力,从医学影像到手写辨认,这款开源多模态大模型究竟有多强?(附当地化摆设教程)

https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903230949373-255485638.png
模型介绍

最近呢,阿里巴巴开源了Qwen2-VL,在多模态大模型显现了在现实应用中的巨大潜力,尤其是在处置惩罚跨模态数据方面表现出众。以下是该模型的几大应用亮点:

[*]智能客服新范式:Qwen2-VL可应用于视频客服场景,实时分析用户展示的产物图像或条形码,并给出相关商品信息,大幅提升人机交互体验。
[*]赋能医疗、安防等行业:该模型能处置惩罚复杂的图像视频输入,支持医学影像分析、智能监控等使命,有望在多个范畴实现技术厘革。
[*]面向全球的智能助理:Qwen2-VL支持多语言的视觉语言交互,可实现跨语言的图文互译、视频择要等功能,在跨国企业服务中大有可为。
[*]连接现实世界的强大工具:通过调用API、访问外部数据等能力,该模型可以获取航班、天气、物流等实时信息,为各行业提供强大的数字化工具。
[*]提升内容生产力:Qwen2-VL可根据视觉输入自动天生文案、设计元素,助力内容创作者提高生产效率,在广告营销等范畴潜力巨大。
Qwen2-VL代表了视觉语言大模型技术的最新发展方向,其在多模态明白、天生、交互等方面的突出表现,标志着人工智能走向成熟应用的新里程碑。随着算法迭代和产业探索的不断深入,Qwen2-VL有望成长为引领未来智慧社会的关键科技力量。
Qwen2-VL-72B在线预览链接


[*]Qwen2-VL-72B 在线预览:https://huggingface.co/spaces/Qwen/Qwen2-VL
[*]模型官网介绍:https://qwenlm.github.io/zh/blog/qwen2-vl/
当地化摆设

这里利用autodl 机器学习平台,官网地点:https://www.autodl.com/market/list
直接到算力市场,选择按量计费,地域随便选择一个,这里利用4090显卡。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903230951370-456510139.png
如图选择PyTorch 版本,最后点击创建。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903230955091-233514534.png
创建好以后就来到了控制台,点击AutoPanel 面板,设置默以为清华源。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903230958048-804920574.png
点击选择清华源,由于清华源下载依靠包比力快。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903230959547-1521930168.png
接着回到控制台,点击进入JupyterLab。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231000647-465581450.png
进入到autodl-tmp 目录下,然后打开终端。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231004845-1059369717.png
然后克隆项目,输入如下命令:
git clone https://github.com/QwenLM/Qwen2-VL.git继续打开一个笔记本,下载模型。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231007805-1240655831.png
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231010776-143078753.png
键入如下代码后运行:
!pip install modelscopehttps://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231012032-1858745961.png
继续键入如下代码下载模型:
from modelscope.hub.snapshot_download import snapshot_download

model_dir = snapshot_download('qwen/Qwen2-VL-7B-Instruct', cache_dir='ai_models')https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231016457-1070110305.png
出现进度条分析模型开始下载了。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231019187-545683246.png
然后回到终端,进入Qwen2-VL 目录。
cd Qwen2-VL/创建假造情况
# 创建一个名为venv 的虚拟环境。
python -m venv venvhttps://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231022432-970701387.png
接着激活假造情况。
source ./venv/bin/activate安装依靠
pip install -r requirements_web_demo.txt安装好依靠以后,我们更新pip
pip install --upgrade piphttps://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231024685-1672345721.png
VsCode 长途连接

回到控制台,复制ssh设置。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231028107-198797528.png
打开Vsocode,长途连接。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231029358-1835310095.png
粘贴登录信息
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231030605-959120728.png
选择第一个默认设置。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231031834-861939262.png
选择第一个链接。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231033069-1562227263.png
复制密码
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231036061-1756824627.png
粘贴密码
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231037319-1045279999.png
接着打开文件夹,选择/root/autodl-tmp/Qwen2-VL/
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231046694-73477353.png
选择信任
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231051887-1235337136.png
点击打开终端
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231056096-1353713613.png
接着激活假造情况。
source ./venv/bin/activate接着回到笔记本模型哪里,复制下载的模型路径。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231103982-282914851.png
回到VsCode ,编辑web_demo_mm.py,设置模型的路径为如下:
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231104518-1528431360.png
最后,见证奇迹的时候到了,运行我们的Python代码。
python web_demo_mm.py 选择在浏览器打开。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231108205-756261314.png
接着,就可以快乐的玩耍了。
https://billy.taoxiaoxin.club/md/2024/09/66d71fc044136df9ff5ec991.png
我们来试着让它帮我们辨认发票。
https://img2024.cnblogs.com/other/2153830/202409/2153830-20240903231116874-918021929.png
Tips

在视频总结会遇到一些错误,我们可以按以下步骤解决这个问题:

[*]安装系统级依靠:
起首,我们必要安装一些必要的系统库,这些库是 PyAV 所必要的。打开终端,运行以下命令:
sudo apt-get update
sudo apt-get install -y libavformat-dev libavcodec-dev libavdevice-dev libavutil-dev libswscale-dev libswresample-dev libavfilter-dev
[*]安装 PyAV:
现在我们可以安装 PyAV 了。在终端中运行:
pip install av
[*]更新 torchvision:
确保 torchvision 是最新版本:
pip install --upgrade torchvision
[*]检查其他依靠:
更新所有其他必要的包:
pip install --upgrade -r requirements.txt(假设您的项目目录中有 requirements.txt 文件)
[*]假如您利用的是假造情况(venv),请确保在执行上述命令前已激活该情况。
[*]重新运行您的脚本,看看问题是否解决。
假如在执行这些步骤后仍然遇到问题,可能必要检查一下您的 CUDA 版本(假如您在利用 GPU)是否与您的 PyTorch 和 torchvision 版本兼容。
总结

想象一下,假如有了Qwen2-VL的加持,我们去医院检查就不用再发愁看不懂片子了,系统会自动帮你分析;逛淘宝时只要给客服发个包包的图,它就能告诉你详细信息,购物体验直接起飞!
而且啊,Qwen2-VL还是个"外语小达人",能听懂多国语言,帮你翻译文字、总结视频要点,出国旅行、做跨国买卖完全不用愁。
还有还有,这位小助手简直是内容创作者的福音!输入一张图,它就能帮你自动天生文案、设计素材,以后做广告、写稿件效率直接翻倍!
想不到吧,原来人工智能已经这么厉害了!阿里这次开源Qwen2-VL,让我们平凡用户也能享受到顶尖AI技术的便利,是不是瞬间感觉未来触手可及了呢?
科技始终来源于人性,Qwen2-VL的出现,让机器真正成为了我们生存中知心的助手和朋友。相信在不久的将来,类似的AI应用将遍地开花,让我们拭目以待吧!
本文由博客一文多发平台 OpenWrite 发布!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 阿里重磅开源Qwen2-VL:超越人类的视觉明白能力,从医学影像到手写辨认,这