infinilabs / analysis-pinyin

🛵 This Pinyin Analysis plugin is used to do conversion between Chinese characters and Pinyin.
Apache License 2.0
2.96k stars 548 forks source link

startOffset must be non-negative, and endOffset must be >= startOffset, and offsets must not go backwards #228

Open wqmain opened 4 years ago

wqmain commented 4 years ago

版本 6.x,Pull记录显示已经修复了该问题,但测试问题依旧存在啊 只要配置了 "ignore_pinyin_offset": false 写数据的时候就会报错, Pull见:https://github.com/medcl/elasticsearch-analysis-pinyin/pull/206

kazaff commented 4 years ago

嗯,我这边本地测试环境版本是6.5.1,确实依然存在该问题~ 只能将"ignore_pinyin_offset": true才行~

medcl commented 4 years ago

恩,新的 fix 代码还没有 backport 到 6.x 分支

bashen1291 commented 4 years ago

7.5.1 问题依旧存在, 具体触发情景未, 如果文本是已英文加分词开头的,index会出现 lastStartOffset 前移的情况 复现方式, 使用readme中的例子, 并配置 ignore_pinyin_offset=true

GET /medcl/_analyze
{
  "text": ["liu 德华"],
  "analyzer": "pinyin_analyzer"
}

结果:

{
    "tokens": [
        {
            "token": "liu",
            "start_offset": 1,
            "end_offset": 4,
            "type": "word",
            "position": 0
        },
        {
            "token": "liu 德华",
            "start_offset": 0,
            "end_offset": 6,
            "type": "word",
            "position": 0
        },

    ]
}
SanPy commented 4 years ago

请问,这个问题6.x版本有什么临时的解决方案嘛

zhechuan1 commented 3 years ago

7.9.3也有这个问题,不知道是不是哪里没配对。如果是pinyin单独一个字段,好像就没有问题。

codingcn commented 3 years ago

7.10.2一样的错误

wansho commented 3 years ago

7.6.2 也有这个错误

luues commented 2 years ago

7.6.2 也有这个错误 解决了吗