PaddlePaddle / models

Officially maintained, supported by PaddlePaddle, including CV, NLP, Speech, Rec, TS, big models and so on.
Apache License 2.0
6.89k stars 2.91k forks source link

请问使用LAC分词,怎么返回词语在原句子中的位置信息?(tokenize) #4846

Open LeeYongchao opened 3 years ago

LeeYongchao commented 3 years ago

例如在jieba分词中可以这么用: jieba.tokenize(u'永和服装饰品有限公司', mode='search')

word 永和 start: 0 end:2 word 服装 start: 2 end:4 word 饰品 start: 4 end:6 word 有限 start: 6 end:8 word 公司 start: 8 end:10 word 有限公司 start: 6 end:10

请问LAC中有没有这种接口?如果没有,请问哪里可以用?

guoshengCS commented 3 years ago

当前没有这种接口,使用LAC的进行预测有类似如下的结果,应该也能够满足需求

说白了就是不想用价格这个规格去找客户,这样很容易损失客户,俗话说"一分钱,一分货".

(说白了, d)(就是, v)(不, d)(想, v)(用, p)(价格, n)(这个, r)(规格, n)(去找, v)(客户, n)(,, w)(这样, r)(很容易, ad)(损失, v)(客户, n)(,, w)(俗话说, d)(", w)(一分钱, m)(,, w)(一分, m)(货, n)(", w)(., w)

另外jieba分词现在也集成了Paddle的LAC分词功能,参见 https://github.com/fxsjy/jieba#特点