sinovation / ZEN

A BERT-based Chinese Text Encoder Enhanced by N-gram Representations
Apache License 2.0
641 stars 104 forks source link

总线错误(吐核) #11

Closed Cancerce1l closed 4 years ago

Cancerce1l commented 4 years ago

小数量语料(25w行)没有出问题,在跑大规模语料(840w)是出现总线错误(吐核),日志如下: image

麻烦问一下是否知道原因以及可能的解决方案?

Cancerce1l commented 4 years ago

补充一句,我有尝试了多次生成语料,均在同样的位置(19%)读取时报错。

GuiminChen commented 4 years ago

python执行文件遇到bus error(core dump),可能会有各种原因,你可以先检查数据,其次,确认你系统设置的stack size有没有限制。你可以用命令ulimit -a查看系统的stack size,如果有size限制,建议修改为unlimited,相应命令ulimit -S -s unlimited。

Cancerce1l commented 4 years ago

@dawanqu-ai 谢谢帮助。最终发现是代码中将 .memmap文件路径写死在/temp,语料库增大导致磁盘空间不足。

GuiminChen commented 4 years ago

不客气,既然问题解决,那我先关闭issue。