Closed yaokun123 closed 2 weeks ago
@yanyiwu
哦,用法应该没啥问题,看来你这个词库数量级可能确实64G不够。。。
@yanyiwu 好的,感谢🙏
你好,有没有什么解决方案?比如能否牺牲一些性能来满足内存
------------------ 原始邮件 ------------------ 发件人: "Yanyi Wu"notifications@github.com; 发送时间: 2019年9月23日(星期一) 晚上11:42 收件人: "yanyiwu/gojieba"gojieba@noreply.github.com; 抄送: "嫁莪! 佷緈鍢"1182728515@qq.com;"Author"author@noreply.github.com; 主题: Re: [yanyiwu/gojieba] 词库2.3G导致64G机器不够用 (#55)
哦,用法应该没啥问题,看来你这个词库数量级可能确实64G不够。。。
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
建议是清理一下词库,看上去是词库建设不太合理。
词库的词是公司名称,后面的词频和词意都是固定的2 n 这种词库优化方向是啥?
------------------ 原始邮件 ------------------ 发件人: "Yanyi Wu"notifications@github.com; 发送时间: 2019年9月24日(星期二) 晚上11:56 收件人: "yanyiwu/gojieba"gojieba@noreply.github.com; 抄送: "嫁莪! 佷緈鍢"1182728515@qq.com;"Author"author@noreply.github.com; 主题: Re: [yanyiwu/gojieba] 词库2.3G导致64G机器不够用 (#55)
建议是清理一下词库,看上去是词库建设不太合理。
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
第一步,将你的词库 5千万的数量级,分割为好几次处理,例如分为 500 个文件,那么每次就需要处理 10 万行。 第二步,将处理后的结果去重。
或者直接采用流的方式打开文档,每次读取一行然后分词处理。
This issue has not been updated for over 1 year and will be marked as stale. If the issue still exists, please comment or update the issue, otherwise it will be closed after 7 days.
This issue has been automatically closed due to inactivity. If the issue still exists, please reopen it.
注:/tmp/test.dict.utf8单文件大约五千万数据, 词库格式如下: