WSL环境下利用LlamaFactory实战记录,从0手把手开始 [复制链接]
发表于 2025-8-24 09:48:39 来自手机 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
环境信息

系统版本
  1. # 输入命令
  2. $ uname -m && cat /etc/*release
  3. # 输出结果
  4. x86_64
  5. DISTRIB_ID=Ubuntu
  6. DISTRIB_RELEASE=22.04
  7. DISTRIB_CODENAME=jammy
  8. DISTRIB_DESCRIPTION="Ubuntu 22.04.5 LTS"
  9. PRETTY_NAME="Ubuntu 22.04.5 LTS"
  10. NAME="Ubuntu"
  11. VERSION_ID="22.04"
  12. VERSION="22.04.5 LTS (Jammy Jellyfish)"
  13. VERSION_CODENAME=jammy
  14. ID=ubuntu
  15. ID_LIKE=debian
  16. HOME_URL="https://www.ubuntu.com/"
  17. SUPPORT_URL="https://help.ubuntu.com/"
  18. BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
  19. PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
  20. UBUNTU_CODENAME=jammy
复制代码
系统概要


  • 架构:x86_64
  • 系统:Ubuntu 22.04.5 LTS (Jammy Jellyfish)
  • 环境:WSL (Windows Subsystem for Linux)
CUDA 安装

1. 检查GPU支持


  • GPU型号:NVIDIA GeForce RTX 4060
  • CUDA支持检查:https://developer.nvidia.com/cuda-gpus
2. 检查GCC版本
  1. # 输入命令
  2. $ gcc --version
  3. # 输出结果
  4. gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
  5. Copyright (C) 2021 Free Software Foundation, Inc.
  6. This is free software; see the source for copying conditions.  There is NO
  7. warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
复制代码
阐明:系统安装的是gcc 11.4.0版本,这是Ubuntu 22.04 LTS的标准gcc版本,完全满意CUDA安装的要求。
3. CUDA安装

3.1 检查当前CUDA状态
  1. # 输入命令:检查CUDA编译器版本
  2. $ nvcc -V
  3. # 输入命令:检查NVIDIA驱动和CUDA运行时版本
  4. $ nvidia-smi
  5. # 输入命令:检查CUDA环境变量
  6. $ echo $CUDA_HOME
  7. $ echo $LD_LIBRARY_PATH
复制代码
阐明

  • 如果nvcc -V下令不存在,阐明未安装CUDA工具包
  • 如果nvidia-smi下令不存在,阐明未安装NVIDIA驱动或WSL未正确配置GPU支持
  • 环境变量未设置不一定意味着CUDA未安装,但需要正确配置才能利用
3.2 卸载已有CUDA版本(如果需要)
  1. # 方法1:使用卸载工具(如果之前是用安装包安装的)
  2. $ sudo /usr/local/cuda-X.Y/bin/cuda-uninstaller
  3. # 注意:将X.Y替换为实际的CUDA版本号,如cuda-11.8
  4. # 方法2:直接删除CUDA目录
  5. $ sudo rm -rf /usr/local/cuda*
  6. $ sudo apt clean && sudo apt autoclean
  7. # 方法3:使用apt卸载(如果是通过apt安装的)
  8. $ sudo apt-get --purge remove "cuda*"
  9. $ sudo apt-get autoremove
复制代码
阐明

  • 建议在安装新版本前完全卸载旧版本,制止冲突
  • 卸载后最好重启系统,确保清算完全
  • 记得备份紧张的CUDA项目和配置文件
3.3 安装CUDA 12.2

准备工作
  1. # 输入命令:切换到指定conda环境
  2. $ conda activate llaf_py310
  3. # 输入命令:检查CUDA是否已安装
  4. $ nvcc
  5. # 输出结果
  6. Command 'nvcc' not found, but can be installed with:
  7. sudo apt install nvidia-cuda-toolkit
复制代码
阐明:确认系统中尚未安装CUDA工具包。
下载安装包
  1. # 输入命令:下载CUDA 12.2安装包
  2. $ wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
  3. # 输出结果
  4. --2025-03-23 01:16:49--  https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
  5. Resolving developer.download.nvidia.com (developer.download.nvidia.com)... 2.23.227.213, 2.23.227.222
  6. Connecting to developer.download.nvidia.com (developer.download.nvidia.com)|2.23.227.213|:443... connected.
  7. HTTP request sent, awaiting response... 301 Moved Permanently
  8. Location: https://developer.download.nvidia.cn/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run [following]
  9. --2025-03-23 01:16:50--  https://developer.download.nvidia.cn/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
  10. Resolving developer.download.nvidia.cn (developer.download.nvidia.cn)... 112.90.90.91, 42.237.113.75, 61.133.50.154, ...
  11. Connecting to developer.download.nvidia.cn (developer.download.nvidia.cn)|112.90.90.91|:443... connected.
  12. HTTP request sent, awaiting response... 200 OK
  13. Length: 4315928767 (4.0G) [application/octet-stream]
  14. Saving to: 'cuda_12.2.0_535.54.03_linux.run'
  15. cuda_12.2.0_535.54.03_linux.run    100%[==============================================================>]   4.02G  14.3MB/s    in 4m 57s
  16. 2025-03-23 01:21:48 (13.8 MB/s) - 'cuda_12.2.0_535.54.03_linux.run' saved [4315928767/4315928767]
复制代码
阐明

  • 安装包大小约4.02GB
  • 下载速度均匀13.8 MB/s
  • 下载用时约4分57秒
  • 文件已完整下载
执行安装
  1. # 输入命令:赋予安装包执行权限
  2. $ chmod +x cuda_12.2.0_535.54.03_linux.run
  3. # 输入命令:运行安装程序
  4. $ sudo sh cuda_12.2.0_535.54.03_linux.run
复制代码
安装界面选项
  1. ┌──────────────────────────────────────────────────────────────────────────────┐
  2. │ CUDA Installer                                                               │
  3. │ + [X] CUDA Toolkit 12.2                                                      │
  4. │   [X] CUDA Demo Suite 12.2                                                   │
  5. │   [X] CUDA Documentation 12.2                                                │
  6. │ - [ ] Kernel Objects                                                         │
  7. │      [ ] nvidia-fs                                                           │
  8. │   Options                                                                    │
  9. │   Install                                                                    │
  10. └──────────────────────────────────────────────────────────────────────────────┘
复制代码
组件阐明

  • CUDA Toolkit 12.2

    • CUDA的焦点工具包
    • 包含编译器、库文件和开辟工具
    • 必须安装,建议保持选中[X]

  • CUDA Demo Suite 12.2

    • CUDA示例程序和演示代码
    • 用于学习和测试CUDA功能
    • 建议安装,便于后续验证[X]

  • CUDA Documentation 12.2

    • CUDA开辟文档
    • 包含API参考、编程指南等
    • 建议安装,方便离线查阅[X]

  • Kernel Objects

    • Linux内核相关组件
    • 包含nvidia-fs子选项
    • 在WSL环境中可以不安装[ ]

  • nvidia-fs

    • NVIDIA GPUDirect Storage功能
    • 用于GPU直接访问存储设备
    • WSL环境中通常不需要[ ]

安装效果
  1. ===========
  2. = Summary =
  3. ===========
  4. Driver:   Not Selected
  5. Toolkit:  Installed in /usr/local/cuda-12.2/
  6. Please make sure that
  7. -   PATH includes /usr/local/cuda-12.2/bin
  8. -   LD_LIBRARY_PATH includes /usr/local/cuda-12.2/lib64, or, add /usr/local/cuda-12.2/lib64 to /etc/ld.so.conf and run ldconfig as root
  9. To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.2/bin
  10. ***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 535.00 is required for CUDA 12.2 functionality to work.
  11. To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
  12.     sudo <CudaInstaller>.run --silent --driver
复制代码
3.4 配置环境变量
  1. # 输入命令:编辑环境配置文件
  2. $ sudo nano ~/.bashrc
  3. # 在文件末尾添加以下内容
  4. export CUDA_HOME=/usr/local/cuda-12.2
  5. export PATH=$CUDA_HOME/bin:$PATH
  6. export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
  7. # 输入命令:使环境变量生效
  8. $ source ~/.bashrc
复制代码
3.5 验证安装
  1. # 输入命令:检查CUDA版本
  2. $ nvcc -V
  3. # 输出结果
  4. nvcc: NVIDIA (R) Cuda compiler driver
  5. Copyright (c) 2005-2023 NVIDIA Corporation
  6. Built on Tue_Jun_13_19:16:58_PDT_2023
  7. Cuda compilation tools, release 12.2, V12.2.91
  8. Build cuda_12.2.r12.2/compiler.32965470_0
  9. # 输入命令:检查环境变量
  10. (llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ echo $CUDA_HOME
  11. /usr/local/cuda-12.2
  12. (llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ echo $LD_LIBRARY_PATH
  13. /usr/local/cuda-12.2/lib64:
  14. # 输入命令:检查GPU状态
  15. (llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ nvidia-smi
  16. Sun Mar 23 01:47:53 2025
  17. +-----------------------------------------------------------------------------------------+
  18. | NVIDIA-SMI 570.133.07             Driver Version: 572.83         CUDA Version: 12.8     |
  19. |-----------------------------------------+------------------------+----------------------+
  20. | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
  21. | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
  22. |                                         |                        |               MIG M. |
  23. |=========================================+========================+======================|
  24. |   0  NVIDIA GeForce RTX 4060        On  |   00000000:09:00.0  On |                  N/A |
  25. |  0%   45C    P0            N/A  /  115W |     802MiB /   8188MiB |      0%      Default |
  26. |                                         |                        |                  N/A |
  27. +-----------------------------------------+------------------------+----------------------+
  28. +-----------------------------------------------------------------------------------------+
  29. | Processes:                                                                              |
  30. |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
  31. |        ID   ID                                                               Usage      |
  32. |=========================================================================================|
  33. |  No running processes found                                                             |
  34. +-----------------------------------------------------------------------------------------+
复制代码
验证阐明

  • CUDA编译器

    • 已乐成安装
    • 版本为12.2.91,符合预期
    • 环境变量配置正确(能够直接调用nvcc下令)

  • 环境变量配置

    • CUDA_HOME正确设置为 /usr/local/cuda-12.2
    • LD_LIBRARY_PATH包含CUDA库路径
    • 环境变量配置生效

  • GPU状态

    • GPU型号:NVIDIA GeForce RTX 4060
    • 显存:8188MiB
    • 驱动版本:572.83
    • CUDA版本:12.8
    • GPU温度:45°C
    • GPU利用率:0%
    • 显存利用:802MiB / 8188MiB

下一步

  • 继续验证CUDA示例程序
  • 开始LLaMA-Factory的安装
LLaMA-Factory 安装

1. 根本安装
  1. # 克隆仓库
  2. git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
  3. # 进入目录
  4. cd LLaMA-Factory
  5. # 安装依赖
  6. pip install -e ".[torch,metrics]"
  7. # 如果出现冲突,使用以下命令
  8. # pip install --no-deps -e .
复制代码
安装下令阐明
pip install -e ".[torch,metrics]"

  • 什么是 -e 参数?

    • -e 是 --editable 的简写,表示"可编辑模式"
    • 打个比方:这就像是在Word中用"追踪修订"模式编辑文档
    • 你可以随时修改代码,改动立即生效,不需要重新安装
    • 这对于开辟和调试特殊有用

  • 为什么用 . ?

    • . 表示"当前目录"
    • 就是告诉pip:“请安装我如今所在文件夹里的这个项目”
    • 这里指的就是LLaMA-Factory的根目录

  • [torch,metrics] 是什么意思?

    • 这是选择安装的"依靠组"
    • 就像点餐时可以选择"套餐A"或"套餐B"
    • 这里选择了两个根本套餐:

      • torch:焦点的深度学习框架,就像厨房里的炉灶
      • metrics:评估工具,就像是菜品品格检测工具


  • 为什么只选这两个?

    • 这是最根本的配置,保证基本功能可用
    • 其他功能(好比分布式练习、量化等)可以后续按需安装
    • 制止一次安装太多不需要的组件,就像不会一次买下超市所有东西

  • 其他可选的依靠组:

    • deepspeed:用于分布式练习,让模型练习更快
    • bitsandbytes:用于模型量化,让模型变得更小
    • vllm:提供高速推理服务
    • swanlab:提供练习过程的可视化界面

  • 如果安装出现问题:

    • 可以利用 pip install --no-deps -e .
    • 这相称于"干净安装",制止依靠冲突
    • 之后可以根据需要手动安装所需的依靠

2. 安装验证
  1. # 输入命令:验证安装
  2. (llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ llamafactory-cli version
  3. # 输出结果
  4. ----------------------------------------------------------
  5. | Welcome to LLaMA Factory, version 0.9.3.dev0           |
  6. |                                                        |
  7. | Project page: https://github.com/hiyouga/LLaMA-Factory |
  8. ----------------------------------------------------------
复制代码
验证阐明

  • LLaMA-Factory安装乐成
  • 当前版本为0.9.3.dev0
  • 下令行工具可以正常利用

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表