houbb / pinyin

The high performance pinyin tool for java.(java 高性能中文转拼音工具。支持同音字。)
https://houbb.github.io/opensource/pinyin
Apache License 2.0
241 stars 34 forks source link

能否给分词加个开关? #5

Closed zhfish closed 4 years ago

zhfish commented 4 years ago

现在我是在转拼音之后,手动trim掉空格 但是有些情况,中英文混合,英文单词中间的空格被误trim了 希望可以关掉分词

很好用,效率不错

houbb commented 4 years ago

拼音的拼接符号可以指定 拼音拼接指定连接符号,所以不需要手动 trim。你可以尝试下能否解决问题。

分词是为了多音字的准确性,实现是可以根据自己的需求指定的。

zhfish commented 4 years ago

我指的并不是连接符,那看来不是分词问题 我找一下测试案例,我记得当时是4个字, 然后输出了 a bcd这样的格式

houbb commented 3 years ago

v0.2.0 添加了分词的自定义方法,你可以指定自定义的分词模式。PinyinSegments 有内置实现,也可以自定义。

PinyinBs pinyinBs = PinyinBs.newInstance().segment(PinyinSegments.chars());

chars 就是最简单的,可以理解为没有做分词。