这个分词工具似乎有敏感词分词问题

xiasummer commented 4 years ago

我是discourse的用户，使用过程中发现这里的很多词语无法被搜索出来。而且这些词语看起来都具有一定的政治上的敏感性，换句话说敏感词。

特意问了一下discourse到底使用的是什么分词工具，看到论坛上有人的回答是，应该是jieba工具。

不知道是不是真的使用的咱们的工具。如果是的话，那么我觉得就值得说一下——咱们做的毕竟是基础工具，敏感词不是咱们应该考虑过滤的——后面的人可以考虑分析或者不分析，但是咱们这个“基础”的分词器应该能够做到完全功能。

ref https://meta.discourse.org/t/whats-the-word-tokenizer-for-different-languages-in-discourse/152893/2

https://meta.discourse.org/t/whats-the-word-tokenizer-for-different-languages-in-discourse/152893/2

xiasummer commented 4 years ago

更多的政治人物的名词都是敏感的，甚至我搜周恩来都搜不出来。

PierreZhangcw commented 4 years ago

更多的政治人物的名词都是敏感的，甚至我搜周恩来都搜不出来。

照你说的这个例子的话，那应该用的不是jieba，至少用的不是jieba的词典，因为在结巴的词典中是有"周恩来"一词的。另外，据我对jieba的了解，这款分词工具不具备敏感词的处理功能，你给的训练语料中有什么词，他就会用什么词，不会考虑是不是敏感词。jieba的训练语料之一是人民日报语料，该语料中也有江泽民、毛泽东等主席的名字。

yanyiwu / cppjieba

这个分词工具似乎有敏感词分词问题 #144