论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
人工智能
›
人工智能
›
使用 GaLore 预训练LLaMA-7B
使用 GaLore 预训练LLaMA-7B
农妇山泉一亩田
金牌会员
|
2024-12-25 03:14:13
|
显示全部楼层
|
阅读模式
楼主
主题
857
|
帖子
857
|
积分
2571
项目代码:
https://github.com/jiaweizzhao/galore
https://github.com/jiaweizzhao/galore
参考博客:
https://zhuanlan.zhihu.com/p/686686751
创建环境
底子环境配置如下:
操作系统:
CentOS 7
CPUs:
单个节点具有 1TB 内存的 Intel CPU,物理CPU个数为64,每颗CPU核数为16
GPUs:
8 卡 A800 80GB GPUs
Python:
3.10 (需要先升级OpenSSL到1.1.1t版本(点击下载OpenSSL),然后再编译安装Python),点击下载Python
NVIDIA驱动步伐
版本:
515.125.06,根据差别型号选择差别的驱动步伐,点击下载。
CUDA工具包:
11.8,点击下载
conda create -n GaLore python=3.10
安装依靠包
pip install -r requirements.txt
复制代码
此中,requirements.txt 文件为:
torch==2.1.0
transformers==4.31.0
tokenizers
datasets==2.14.6
peft
wandb
loguru
nvitop
lion-pytorch
matplotlib
bitsandbytes
scipy
scikit-learn
evaluate
复制代码
pip install tensorly
注意:Pytorch 需确保2.1.0以上,不然会报错。
数据集准备
本文使用 C4 数据集进行训练,C4 数据集是由 Google 提供的一个大型预训练数据集,用于训练语言模子。C4 数据集包含了数十亿个网页的内容,颠末处置惩罚和清洗后形成了一个适适用于训练大型语言模子的数据集。这个数据集可以用于训练各种天然语言处置惩罚任务,如文本天生、文本分类
、语言建模等。语言建模
下载地址:https://huggingface.co/datasets/allenai/c4/tree/main/en
由于数据集太大,这里只下载了一个文件约莫356317条数据。
wandb 启用离线模式
启用离线模式后,wandb 将不会上传数据,但仍然会记载实行过程中的数据和结果。
wandb offline
# W&B offline. Running your script from this directory will only write metadata locally. Use wandb disabled to completely turn off W&B.
复制代码
单张 4090 消费级显卡预训练 LLaMA-7B
接下来,使用单个 GPU(例如:NVIDIA RTX 4090)训练 7B 模子,您所需要做的就是指定 --optimizer=galore_adamw8bit_per_layer ,这会启用 GaLoreAdamW8bit 并进行
每层权重更新
。通过激活(梯度)检查点(activation checkpointing),您可以将在 NVIDIA RTX 4090 上测试的批量巨细保持为 16。
实行命令:
CUDA_VISIBLE_DEVICES=3 torchrun --standalone --nproc_per_node 1 torchrun_main.py \
--model_config configs/llama_7b.json \
--lr 0.005 \
--galore_scale 0.25 \
--rank 1024 \
--update_proj_gap 500 \
--batch_size 16 \
--total_batch_size 512 \
--activation_checkpointing \
--num_training_steps 150000 \
--warmup_steps 15000 \
--weight_decay 0 \
--grad_clipping 1.0 \
--dtype bfloat16 \
--eval_every 1000 \
--single_gpu \
--optimizer galore_adamw8bit_per_layer
复制代码
CUDA_VISIBLE_DEVICES=3 torchrun --standalone --nproc_per_node 1 torchrun_main.py --model_config configs/llama_7b.json --lr 0.005 --galore_scale 0.25 --rank 1024 --update_proj_gap 500 --batch_size 16 --total_batch_size 512 --activation_checkpointing --num_training_steps 150000 --warmup_steps 15000 --weight_decay 0 --grad_clipping 1.0 --dtype bfloat16 --eval_every 1000 --single_gpu --optimizer galore_adamw8bit_per_layer
似乎是因为连不了外网所以没找到数据集:
解决方法,手动下载数据集,上传到服务器:
下载地址:https://huggingface.co/datasets/allenai/c4/tree/main/en
同样,模子也要提前下好,放在指定位置:
开始训练了,只是比较慢,显存开销在22G的样子:
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
农妇山泉一亩田
金牌会员
这个人很懒什么都没写!
楼主热帖
厉害了,腾讯云云巢荣获信通院“云原生 ...
2022 春节抖音视频红包系统设计与实现 ...
【Redis高手修炼之路】②Redis的五大数 ...
原型设计工具比较及实践--滴爱音乐 ...
数据库概述
OpenHarmony和HarmonyOS有什么区别?这 ...
多线程(一)-两种创建线程的方式 ...
ABP Framework 5.3.0 版本新增功能和变 ...
体系集成商已死,有事烧纸:浙江着名集 ...
【视频】k8s套娃开发调试dapr应用 - 在 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表