llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llama ...

打印 上一主题 下一主题

主题 936|帖子 936|积分 2808

错误内容:

  1. Traceback (most recent call last):
  2.   File "/home/.../Project/LLaMA-Factory/src/llamafactory/launcher.py", line 15, in <module>
  3.     from llamafactory.train.tuner import run_exp
  4. ModuleNotFoundError: No module named 'llamafactory'
  5. torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 2963998) of binary: /usr/local/anaconda3/bin/python
复制代码
原因分析:

llamafactory-cli 在并发环境下,走模式 Command.TRAIN 时,只能利用体系默认的 Python 环境,导致找不到 PyTorch 和其他依靠项,torchrun 已经在全局用户目录中安装过,固然我在conda环境下安装pytorch,但是在多卡利用lamafactory cli train 下令时照旧会调用全局里的torchrn ,这个是由于 eho $PATH 中体系变量在conda环境变量的前面。
解决方法:

添加环境变量,这个就是将劈面conda环境优先级最高,但是一次性的,也就是每次重新进入环境后都要执行这个指令。别的方法应该就是删除体系里的torchrun 或去永世性修改次序,但是我没具体的去试一下。
  1. export PATH="/home/zhengzhenzhuang/.conda/envs/factory/bin:$PATH”
复制代码
  需要根据上面路径找出自己的环境bin路径

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

冬雨财经

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表