Closed braveryCHR closed 4 years ago
使用该库来返回近义词,单核CPU一秒钟只能返回50个不相同的词的近义词,对于NLP任务效率过低,成为数据读取的瓶颈,不知能否进行优化?
可以优化,但是考虑到优化的目标是十倍以上的话,需要用 C++ 重写。 主要计算是查询一个 40W+ 的词汇表的向量空间。目前用的算法是 KDTree。
线上使用需要加大硬件投资。
使用该库来返回近义词,单核CPU一秒钟只能返回50个不相同的词的近义词,对于NLP任务效率过低,成为数据读取的瓶颈,不知能否进行优化?