CogVLM2多模态开源大模型摆设与利用

海哥  金牌会员 | 2024-6-21 15:48:58 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 536|帖子 536|积分 1608

CogVLM2多模态开源大模型摆设与利用

项目简介



  • CogVLM2 是由清华大学团队发布的新一代开源模型系列。
  • 2024年5月24日,发布了Int4版本模型,只需16GB显存即可进行推理。
  • 2024年5月20日,发布了基于llama3-8b的CogVLM2,性能与GPT-4V相当或更优。
模型特点



  • 显著提拔关键指标,如TextVQA, DocVQA。
  • 支持8K文本长度和1344*1344图像分辨率。
  • 提供中英文双语模型版本。
模型详细信息



  • 基座模型:Meta-Llama-3-8B-Instruct
  • 语言:英文和中英文双语
  • 模型巨细:19B
  • 任务:图像理解,对话模型
  • 文本长度:8K
  • 图片分辨率:1344*1344
模型利用

最低设置要求

CogVlM2 Int4 型号需要 16G GPU 内存就可以运行,而且必须在具有 Nvidia GPU 的 Linux 上运行。
Model Name19B Series ModelRemarksBF16 / FP16 Inference42GBTested with 2K dialogue textInt4 Inference16GBTested with 2K dialogue textBF16 Lora Tuning (Freeze Vision Expert Part)57GBTraining text length is 2KBF16 Lora Tuning (With Vision Expert Part)> 80GBSingle GPU cannot tune 摆设步骤

模型下载



  • 这里从 huggingface 上下载模型
  • 如果利用AutoDL算力平台可以利用 source /etc/network_turbo 进行学术加速 , unset http_proxy && unset https_proxy 取消加速
  1. # 创建文件夹
  2. mkdir cogvlm2
  3. # 按照huggingface_hub 工具下载模型
  4. pip install -U huggingface_hub
  5. # 下载模型到当前文件夹
  6. huggingface-cli download THUDM/cogvlm2-llama3-chinese-chat-19B-int4 --local-dir .
  7. # 也可以使用
  8. git clone https://huggingface.co/THUDM/cogvlm2-llama3-chinese-chat-19B-int4
复制代码
下载代码

  1. git clone https://github.com/THUDM/CogVLM2
复制代码
安装依赖

cd basic_demo
pip install -r requirements.txt


  • 如果安装出现依赖库辩论的错误,可以接纳下面requirements.txt
  1. xformers>=0.0.26.post1
  2. #torch>=2.3.0
  3. #torchvision>=0.18.0
  4. transformers>=4.40.2
  5. huggingface-hub>=0.23.0
  6. pillow>=10.3.0
  7. chainlit>=1.0.506
  8. pydantic>=2.7.1
  9. timm>=0.9.16
  10. openai>=1.30.1
  11. loguru>=0.7.2
  12. pydantic>=2.7.1
  13. einops>=0.7.0
  14. sse-starlette>=2.1.0
  15. bitsandbytes>=0.43.1
复制代码
代码修改

vim web_demo.py
  1. # 修改模型路径为本地路径
  2. MODEL_PATH = '/root/autodl-tmp/cogvlm2/cogvlm2-llama3-chinese-chat-19B-int4'
复制代码
启动WebDemo

  1. chainlit run web_demo.py
复制代码
访问

当地则访问 : http://localhost:8000
如果是AutoDL 利用ssh代理来访问 , 输入yes, 怎样粘贴密码即可
  1. ssh -CNg -L 8000:127.0.0.1:8000 root@connect.cqa1.xxxx.com -p 46671
复制代码


  • 页面

效果



  • 成份表



  • 火车票

   这里键的含义不对, int4 估计会有性能丧失导致的
  

  • 盖了章的报价表


OpenAI API

利用 OpenAI API格式的方式哀求和模型的对话。
  1. python openai_api_demo.py
复制代码
错误办理


   办理办法 :
  利用下面requirements.txt重新安装依赖
  1. xformers>=0.0.26.post1
  2. #torch>=2.3.0
  3. #torchvision>=0.18.0
  4. transformers>=4.40.2
  5. huggingface-hub>=0.23.0
  6. pillow>=10.3.0
  7. chainlit>=1.0.506
  8. pydantic>=2.7.1
  9. timm>=0.9.16
  10. openai>=1.30.1
  11. loguru>=0.7.2
  12. pydantic>=2.7.1
  13. einops>=0.7.0
  14. sse-starlette>=2.1.0
  15. bitsandbytes>=0.43.1
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

海哥

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表