内存使用太大、模型需要压缩

thunlp / THULAC

An Efficient Lexical Analyzer for Chinese

MIT License

793 stars 172 forks source link

Open alexlee728 opened 7 years ago

alexlee728 commented 7 years ago

内存使用太大

model文件没有做压缩，太大内存使用太大：一下子申请很大内存。

可以考虑对model文件压缩（我对cws_dat压缩后只有18M，原来大约60M），然后边使用边解压。这样不model文件和内存都可以降低很多。

qinghua2016 commented 7 years ago

请问你是怎么对cws_dat文件进行压缩的?@alexlee728

alexlee728 commented 7 years ago

我是用压缩软件测试的。你可以做个开关，训练模型时候对二进制文件压缩成N个包，用到哪个解压哪个。这样能保证非服务器应用也能用。

alexlee728 commented 7 years ago

另外内存过大是应为开始就申请了模型那么大的数据。我觉得要综合考虑，不一定为了快就要全部加载到内存。一般不会有人去对几M以上文本分词，至少说大多数不会。所以可以配置成服务器版本和非服务器版最好，非服务器版要压缩数据并控制内存。

qinghua2016 commented 7 years ago

谢谢 @alexlee728

gzp9595 commented 7 years ago

非常感谢您的意见，我们也会考虑这样的做法，尽量减少一开始占用的内存~