在Windows下微调大模型训练结束时,出现了一个关于NVML的报错。
FileNotFoundError: Could not find module 'C:\Program Files\NVIDIA Corporation\NVSMI\nvml.dll' (or one of its dependencies). Try using the full path with constructor syntax.
pynvml.NVMLError_LibraryNotFound: NVML Shared Library Not Found
可以发现是因为缺少nvml.dll
文件。
解决方案:
where nvidia-smi
C:\Windows\System32\nvidia-smi.exe
查看nvidia-smi的安装路径,在此路径下会有nvml.dll
文件,只需要在C:\Program Files\NVIDIA Corporation\
下创建NVSMI
目录,然后把nvml.dll
文件copy过去即可。
这个解决方法的前提是已经安装好CUDA和nvidia-smi