tenlee2012 / elasticsearch-analysis-hao

一个非常hao用的elasticsearch(es)中文分词器插件
Apache License 2.0
230 stars 29 forks source link

停用词相关 #54

Open tenlee2012 opened 2 years ago

tenlee2012 commented 2 years ago

看好很多同学再问停用词功能。 非常抱歉,本插件不支持停用词配置以及远程停用词词库。 原因是elasticsearch本身就有停用词功能,中文的停用词更新也不频繁,就没有重复造轮子。 如有需要,请使用es原生提供的停用词功能。 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-tokenfilter.html

PUT /my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "tokenizer": "whitespace",
          "filter": [ "my_custom_stop_words_filter" ]
        }
      },
      "filter": {
        "my_custom_stop_words_filter": {
          "type": "stop",
          "stopwords_path": "停用词路径,每个词一行"
          "ignore_case": true
        }
      }
    }
  }
}

PS: 其实词库的热更新,也只是做到了在词库更新之后的新doc才会被新词识别,旧doc还是要依赖索引重建。