fukuball / jieba-php

"結巴"中文分詞:做最好的 PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best PHP Chinese word segmentation module.
http://jieba-php.fukuball.com
MIT License
1.32k stars 260 forks source link

如何在分词完成后,载入停用词表去除停用词 #56

Open FlyBirdHeight opened 5 years ago

FlyBirdHeight commented 5 years ago

作者你好,有一个疑问,当我分词完成后,无法设置停用词表过滤。看了文档之后发现也并没有这个功能,只有在关键词提取里面才可以设置,请问在分词里面可以设置停用词表吗?

fukuball commented 5 years ago

通常 stop words 都是使用在關鍵字萃取的階段,如果要在分詞階段使用 stop words,使用者其實很容易可以處理,就是自己濾掉就可以了,因此分詞階段不會套用 stop words。