NUM是用户指定显卡的序号(0,1,2…),可以先用 nvidia-smi 检察当前哪块显卡可用。但这种方法限制了用户可见的GPU数量,比如你的其他程序在你的目录里无法选择别的GPU; 你的程序也没法使用multiple GPUs。
注意!!!!!!
ValueError: Total number of attention heads (28) must be divisible by tensor parallel size (6).
如果改后报这个错误,肯定注意注意力头数要能被gpu卡数除尽!
4.Cannot use FlashAttention-2 backend because the flash_attn package is not found
pip install -U flash-attn==2.5.8
5.WARNING worker.py:1481 -- SIGTERM handler is not set because current thread is not the main thread.
gcs_rpc_client.h:179: Failed to connect to GCS at address 172.16.11.103:48924 within 5 seconds
Failed to get cluster ID from GCS server: TimedOut: Timed out while waiting for GCS to become available
6.RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method
7.使用huggingface推理的Baichuan2-13B-Chat的时候,
提示:RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
8.用vllm加载模型的时候提示:Started a local Ray instance.
一个低级题目导致vLLM加载大模型时ray卡死 - badwood - 博客园
这两天一直被一个题目困扰,用vLLM加载千问时不能开并行(tensor_parallel_size>1),一开就会卡在ray阶段,最初是提示Started a local Ray instance,后来手工启动ray集群,就提示connected to Ray cluster。无论怎样调都无法跑下去,根本不会加载模型,换了各种版本的vllm、transformer、ray、显卡、乃至是用原来可以跑的docker,都不可,直到发现一个偶尔爆出的错误:ray pthread_create failed: Resource temporarily unavailable。一搜,第一条发起就是查抄体系线程数设置。最终定位是体系设置的用户最大线程数太小(ulimit -u),设定为4096,修改到unlimited(/etc/security/limits.conf中增长app用户的nofile、nproc设置),顺遂解决题目。
9.加载/home/sxw/3-model/1-patentWritten/10-glm-4-9b-chat模型的时候,huggingface推理,举行对话提示:KeyError: '<reserved_102>'
10.llama-factory加载chatglm3-6b-32k模型huggingface推理,对话提示:ValueError: too many values to unpack (expected 2)
解决方法:原因是transformers版本过高,修改为transformers==4.41.2【bug解决】chatglm3推理 ValueError: too many values to unpack (expected 2)_chatglm3 valueerror: too many values to unpack (ex-CSDN博客
11.llama-factory加载qwen2.5-14B模型huggingface推理,对话提示:RuntimeError: Could not infer dtype of NoneType
12.llama-factory加载glm-4-9b-chat-1m模型huggingface推理,对话提示:KeyError: 'sop'。
13.报错:“TypeError: ChatGLMTokenizer._pad() got an unexpected keyword argument ‘padding_side‘ ”_chatglm.pad has unexpected-CSDN博客
14.vllm 推理报错,无法导入本地大模型路径_vllm加载本地模型-CSDN博客
15.RuntimeError: Could not infer dtype of NoneType-CSDN博客
16.解决vscode长途连接Linux无权限保存的题目,解决vscode长途连接Linux无权限保存的题目_vscode无法保存linux主机上的网络共享恩家-CSDN博客
17. 为什么安装了autoawq后运行python文件的时候照旧提示安装autoawq?
解决方法:直接git clone awq的源码,新建conda情况并安装awq依赖,在这个情况下运行,可以避免提示一直要安装autoawq题目,安装的autoawq版本是:0.2.6+cu121
18.vs code 提示:无法监视文件更改,请按照链接说明
【题目解决】VSCode报警:无法在这个大型工作区中监视文件更改。请按照说明链接来解决此题目。_无法在这个大型工作区文件夹中监视文件更改。请按照说明链接来解决此题目。-CSDN博客
19. ollama的open webui 在执行open-webui serve的时候提示:undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.x报错缺失
undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.x报错缺失_version libnvjitlink.so.12 not defined in file lib-CSDN博客