yanyiwu / cppjieba

"结巴"中文分词的C++版本
MIT License
2.57k stars 690 forks source link

自定义词大小写敏感? #155

Open suupic opened 3 years ago

suupic commented 3 years ago

首先遇到的问题是无法分出'单数字+字母'的词, 会忽略掉开头的数字, 如'5g'、'6测试' 后在自定义词典中加入'5g n' 可分出'5g', 却不能分出'5G' 如何忽略大小写呢? 使用的是pg_jieba

select to_tsvector('jiebacfg','5g前景一片光明') ;
-----------------------------------
 '5g':1 '一片':3 '光明':4 '前景':2
select to_tsvector('jiebacfg','5G前景一片光明') ;
----------------------------------
 'g':2 '一片':4 '光明':5 '前景':3