错误内容:
- Traceback (most recent call last):
- File "/home/.../Project/LLaMA-Factory/src/llamafactory/launcher.py", line 15, in <module>
- from llamafactory.train.tuner import run_exp
- ModuleNotFoundError: No module named 'llamafactory'
- torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 2963998) of binary: /usr/local/anaconda3/bin/python
复制代码 原因分析:
llamafactory-cli 在并发环境下,走模式 Command.TRAIN 时,只能利用体系默认的 Python 环境,导致找不到 PyTorch 和其他依靠项,torchrun 已经在全局用户目录中安装过,固然我在conda环境下安装pytorch,但是在多卡利用lamafactory cli train 下令时照旧会调用全局里的torchrn ,这个是由于 eho $PATH 中体系变量在conda环境变量的前面。
解决方法:
添加环境变量,这个就是将劈面conda环境优先级最高,但是一次性的,也就是每次重新进入环境后都要执行这个指令。别的方法应该就是删除体系里的torchrun 或去永世性修改次序,但是我没具体的去试一下。
- export PATH="/home/zhengzhenzhuang/.conda/envs/factory/bin:$PATH”
复制代码 需要根据上面路径找出自己的环境bin路径
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |