Closed Cancerce1l closed 4 years ago
补充一句,我有尝试了多次生成语料,均在同样的位置(19%)读取时报错。
python执行文件遇到bus error(core dump),可能会有各种原因,你可以先检查数据,其次,确认你系统设置的stack size有没有限制。你可以用命令ulimit -a查看系统的stack size,如果有size限制,建议修改为unlimited,相应命令ulimit -S -s unlimited。
@dawanqu-ai 谢谢帮助。最终发现是代码中将 .memmap文件路径写死在/temp,语料库增大导致磁盘空间不足。
不客气,既然问题解决,那我先关闭issue。
小数量语料(25w行)没有出问题,在跑大规模语料(840w)是出现总线错误(吐核),日志如下:
麻烦问一下是否知道原因以及可能的解决方案?