物联网CogVLM2多模态开源大模型摆设与利用

海哥发表于 2024-6-21 15:48:58

CogVLM2多模态开源大模型摆设与利用

CogVLM2多模态开源大模型摆设与利用

项目简介

[*]CogVLM2 是由清华大学团队发布的新一代开源模型系列。
[*]2024年5月24日，发布了Int4版本模型，只需16GB显存即可进行推理。
[*]2024年5月20日，发布了基于llama3-8b的CogVLM2，性能与GPT-4V相当或更优。
模型特点

[*]显著提拔关键指标，如TextVQA, DocVQA。
[*]支持8K文本长度和1344*1344图像分辨率。
[*]提供中英文双语模型版本。
模型详细信息

[*]基座模型：Meta-Llama-3-8B-Instruct
[*]语言：英文和中英文双语
[*]模型巨细：19B
[*]任务：图像理解，对话模型
[*]文本长度：8K
[*]图片分辨率：1344*1344
模型利用

最低设置要求

CogVlM2 Int4 型号需要 16G GPU 内存就可以运行，而且必须在具有 Nvidia GPU 的 Linux 上运行。
Model Name19B Series ModelRemarksBF16 / FP16 Inference42GBTested with 2K dialogue textInt4 Inference16GBTested with 2K dialogue textBF16 Lora Tuning (Freeze Vision Expert Part)57GBTraining text length is 2KBF16 Lora Tuning (With Vision Expert Part)> 80GBSingle GPU cannot tune 摆设步骤

模型下载

[*]这里从 huggingface 上下载模型
[*]如果利用AutoDL算力平台可以利用 source /etc/network_turbo 进行学术加速 , unset http_proxy && unset https_proxy 取消加速
# 创建文件夹
mkdir cogvlm2
# 按照huggingface_hub 工具下载模型
pip install -U huggingface_hub
# 下载模型到当前文件夹
huggingface-cli download THUDM/cogvlm2-llama3-chinese-chat-19B-int4 --local-dir .

# 也可以使用
git clone https://huggingface.co/THUDM/cogvlm2-llama3-chinese-chat-19B-int4
下载代码

git clone https://github.com/THUDM/CogVLM2
安装依赖

cd basic_demo
pip install -r requirements.txt

[*]如果安装出现依赖库辩论的错误,可以接纳下面requirements.txt
xformers>=0.0.26.post1
#torch>=2.3.0
#torchvision>=0.18.0
transformers>=4.40.2
huggingface-hub>=0.23.0
pillow>=10.3.0
chainlit>=1.0.506
pydantic>=2.7.1
timm>=0.9.16
openai>=1.30.1
loguru>=0.7.2
pydantic>=2.7.1
einops>=0.7.0
sse-starlette>=2.1.0
bitsandbytes>=0.43.1
代码修改

vim web_demo.py
# 修改模型路径为本地路径
MODEL_PATH = '/root/autodl-tmp/cogvlm2/cogvlm2-llama3-chinese-chat-19B-int4'
启动WebDemo

chainlit run web_demo.py
访问

当地则访问 : http://localhost:8000
如果是AutoDL 利用ssh代理来访问 , 输入yes, 怎样粘贴密码即可
ssh -CNg -L 8000:127.0.0.1:8000 root@connect.cqa1.xxxx.com -p 46671

[*]页面
https://img-blog.csdnimg.cn/img_convert/911bf750093b345922d5154fd53777cd.png
效果

[*]成份表
https://img-blog.csdnimg.cn/img_convert/2547f6ded0063ced54345004535d34ba.png

[*]火车票
https://img-blog.csdnimg.cn/img_convert/975f9340829170ece59e57ec921ea637.png
这里键的含义不对, int4 估计会有性能丧失导致的

[*]盖了章的报价表
https://img-blog.csdnimg.cn/img_convert/56d58c7d3bb5f173969b901df7f36fca.png
https://img-blog.csdnimg.cn/img_convert/21a87254d7331d0791a25d99ee88f5bd.png
OpenAI API

利用 OpenAI API格式的方式哀求和模型的对话。
python openai_api_demo.py
错误办理

https://img-blog.csdnimg.cn/img_convert/f0b12bbb61fdee1d8bcf8052501adf6d.png
办理办法 :
利用下面requirements.txt重新安装依赖
xformers>=0.0.26.post1
#torch>=2.3.0
#torchvision>=0.18.0
transformers>=4.40.2
huggingface-hub>=0.23.0
pillow>=10.3.0
chainlit>=1.0.506
pydantic>=2.7.1
timm>=0.9.16
openai>=1.30.1
loguru>=0.7.2
pydantic>=2.7.1
einops>=0.7.0
sse-starlette>=2.1.0
bitsandbytes>=0.43.1

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

CogVLM2多模态开源大模型摆设与利用