办理:云盘空间不足,自动删除了,当时是45g。扩容到75g后重跑即可。 总结教训:这个实在黑白常惨重的教训。花了了很长时间去训练的模型前功尽弃。
延伸标题:
1)怎样预估训练时要用的硬盘空间(乃至内存、显存、时间等资源)
2)后续成功后,看到天生的pth文件并没有大到会爆了硬盘空间的程度,为什么仍旧会磁盘空间不足?
(见Q&A)
4.用2*80g(2卡A100)和80g(A100)运行训练时,报错“typeError: All input tensors need to be on the same GPU, but found some tensors to not be on a GPU”