Closed shuiiiiiimu closed 2 years ago
Hi,
请问单卡微调是否有问题?方便的话可以提供下可复现的最小数据集合
GPU 单卡直接 Aborted。 没其他 ERROR 了。数据集可能不太适合放出来。
你可以分享一下你的排查经验吗?
为了定位问题,我把 70 条数据集,分了几批,比如 head 6 / head 12 / head 24 ...
都是同样的 Exit。 其中有一次出现 GPU memory 的问题。 然后做了几个事情: 1)!nvidia-smi。 无占用 2)!fuser -v /dev/nvidia*。也没有返回。 3)ps -ef 看到不少 jupyter 的进程。 统统 kill,重启 Jupyter。 4)batch_size 调低 16 -> 8 。 5)max_seq_length 也根据自己的情况 512 -> 256。
直接跑 70 条数据,目前全部正常了。 也不知道哪一步环节是关键的。 一轮操作下来,可以 work 了。
以上,给后来的各位做个参考吧。
感谢题主。我把batch_size 32->16, max_seq_length 198->128 work了。
Window WSL2 paddlenlp 2.4.3 paddlepaddle-gpu 2.4.0rc0
抽取式任务。 准备了 70 条训练数据,标注了 6 个标签。操作步骤以及参数都是参考 model_zoo/uie#4-训练定制
从样本数据中 head 6 条用于训练,正常。
样本 70 条数据用于训练,直接中断,无明显日志。日志如下:
workerlog.0 workerlog.1 没有 ERROR 日志。
这种情况有什么办法可以定位到问题?或者 debug 思路可以分享一下?