yanyiwu / cppjieba

"结巴"中文分词的C++版本
MIT License
2.57k stars 690 forks source link

这个分词工具似乎有敏感词分词问题 #144

Open xiasummer opened 4 years ago

xiasummer commented 4 years ago

我是discourse的用户,使用过程中发现这里的很多词语无法被搜索出来。而且这些词语看起来都具有一定的政治上的敏感性,换句话说敏感词。

特意问了一下discourse到底使用的是什么分词工具,看到论坛上有人的回答是,应该是jieba工具。

不知道是不是真的使用的咱们的工具。如果是的话,那么我觉得就值得说一下——咱们做的毕竟是基础工具,敏感词不是咱们应该考虑过滤的——后面的人可以考虑分析或者不分析,但是咱们这个“基础”的分词器应该能够做到完全功能。

ref https://meta.discourse.org/t/whats-the-word-tokenizer-for-different-languages-in-discourse/152893/2

https://meta.discourse.org/t/whats-the-word-tokenizer-for-different-languages-in-discourse/152893/2

xiasummer commented 4 years ago

更多的政治人物的名词都是敏感的,甚至我搜周恩来都搜不出来。

PierreZhangcw commented 4 years ago

更多的政治人物的名词都是敏感的,甚至我搜周恩来都搜不出来。

照你说的这个例子的话,那应该用的不是jieba,至少用的不是jieba的词典,因为在结巴的词典中是有"周恩来"一词的。另外,据我对jieba的了解,这款分词工具不具备敏感词的处理功能,你给的训练语料中有什么词,他就会用什么词,不会考虑是不是敏感词。jieba的训练语料之一是人民日报语料,该语料中也有江泽民、毛泽东等主席的名字。