Open ChaooMa opened 4 years ago
相同代码,相同配置,只改了读入文件。3M 数据能跑出结果,800M 就卡住了。 长期停留在此处: 2020-04-27 15:56:31,686 - INFO - build ngram trie - 3400000/3457260 passed
2020-04-27 15:56:31,686 - INFO - build ngram trie - 3400000/3457260 passed
我的也是,好像有几个处理特别费时间。
这么神奇的吗,build 完 ngram trie 之后,应该就进入正式的新词发现阶段,好像不至于卡住呀。
没错,大文件就卡在build ngram trie这里了
确实会卡住,我跑了1g的数据,在ngtrie tokenize这里就不动了。
卡住的问题应该是你们的text_generator分割有问题,导致读进来的text过长
相同代码,相同配置,只改了读入文件。3M 数据能跑出结果,800M 就卡住了。 长期停留在此处:
2020-04-27 15:56:31,686 - INFO - build ngram trie - 3400000/3457260 passed