论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
多模态基础模型练习笔记-第一篇InternVL-g ...
多模态基础模型练习笔记-第一篇InternVL-g
王國慶
论坛元老
|
2025-2-16 19:43:34
|
显示全部楼层
|
阅读模式
楼主
主题
1053
|
帖子
1053
|
积分
3163
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
一、TL;DR
将之前所有练习过的大模型的过程都总结和回想一下,遇到的坑别忘了
二、标题记录
照旧注意镜像的选择,选择社区最火的镜像,然后下载好对应的数据,重要显卡的选择,这个时候4090已经带不动了,必须选择32G的V100大概40G的A100了:
2.1 train_head:
batchsize=32
这里其实是代码有点小迷惑点哈,你选择4卡4090其实是没标题的,他会选择平摊显存,但是单卡的话,它会将所有的现存都堆到第一张卡内里去,设计上大概有点标题,显卡占用环境如下所示:
具体的实现自己去看代码吧
2.2 train_lora:
使用lora的练习方法显着是不同的,练习参数量如下所示:
loss的数值如下所示:
基本上内存也已经吃满了:
将batchsize设为16,则显存占用如下所示:
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
王國慶
论坛元老
这个人很懒什么都没写!
楼主热帖
webman
不想打开 IDE 的摆烂一天
Jupyter Notebook,太强大了
React技巧之发出http请求
【网络】https单向认证和双向认证 ...
【Shashlik.EventBus】.NET 事件总线, ...
APP内存管理
Bluecmsv1.6-代码审计
java如何显示"html转义字符"对应的原始 ...
Apache DolphinScheduler 3.0.0 正式版 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
鸿蒙
Mysql
快速回复
返回顶部
返回列表