llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llama ...

冬雨财经 · 2025-3-17 19:49:46

错误内容：

Traceback (most recent call last):
File "/home/.../Project/LLaMA-Factory/src/llamafactory/launcher.py", line 15, in <module>
from llamafactory.train.tuner import run_exp
ModuleNotFoundError: No module named 'llamafactory'
torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 2963998) of binary: /usr/local/anaconda3/bin/python

复制代码

原因分析：

llamafactory-cli 在并发环境下，走模式 Command.TRAIN 时，只能利用体系默认的 Python 环境，导致找不到 PyTorch 和其他依靠项，torchrun 已经在全局用户目录中安装过，固然我在conda环境下安装pytorch，但是在多卡利用lamafactory cli train 下令时照旧会调用全局里的torchrn ，这个是由于 eho $PATH 中体系变量在conda环境变量的前面。
解决方法：

添加环境变量，这个就是将劈面conda环境优先级最高，但是一次性的，也就是每次重新进入环境后都要执行这个指令。别的方法应该就是删除体系里的torchrun 或去永世性修改次序，但是我没具体的去试一下。

export PATH="/home/zhengzhenzhuang/.conda/envs/factory/bin:$PATH”

复制代码

需要根据上面路径找出自己的环境bin路径

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llama ...

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块