thunlp / THULAC

An Efficient Lexical Analyzer for Chinese
MIT License
793 stars 172 forks source link

内存使用太大、模型需要压缩 #14

Open alexlee728 opened 7 years ago

alexlee728 commented 7 years ago

内存使用太大

model文件没有做压缩,太大 内存使用太大:一下子申请很大内存。

可以考虑对model文件压缩(我对cws_dat压缩后只有18M,原来大约60M),然后边使用边解压。这样不model文件和内存都可以降低很多。

qinghua2016 commented 7 years ago

请问你是怎么对cws_dat文件进行压缩的?@alexlee728

alexlee728 commented 7 years ago

我是用压缩软件测试的。你可以做个开关,训练模型时候对二进制文件压缩成N个包,用到哪个解压哪个。这样能保证非服务器应用也能用。

alexlee728 commented 7 years ago

另外内存过大是应为开始就申请了模型那么大的数据。我觉得要综合考虑,不一定为了快就要全部加载到内存。一般不会有人去对几M以上文本分词,至少说大多数不会。所以可以配置成服务器版本和非服务器版最好,非服务器版要压缩数据并控制内存。

qinghua2016 commented 7 years ago

谢谢 @alexlee728

gzp9595 commented 7 years ago

非常感谢您的意见,我们也会考虑这样的做法,尽量减少一开始占用的内存~