belikemike23 / mmseg4j

Automatically exported from code.google.com/p/mmseg4j
Apache License 2.0
0 stars 0 forks source link

特殊符号内的不分词 #62

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
hi,
我想让分词器碰到《传奇3》、“传奇3”等这种词的时候,《
》内部的就不继续分词,而是让内部作为一个词语。

请问这在哪里可以修改一下?

Original issue reported on code.google.com by sling...@gmail.com on 17 Dec 2013 at 5:37

GoogleCodeExporter commented 9 years ago
拜读了一部分源码,发现com.chenlb.mmseg4j.MMSeg.next()这里可以修�
��词语的类型。
思路是:当碰到《,则一直向后读,直到》,并且内部的不��
�词。

Original comment by sling...@gmail.com on 18 Dec 2013 at 2:04

Attachments:

GoogleCodeExporter commented 9 years ago
测试语句是:hi1白鹭《ww 传2.f0.2 奇 fj》天《传奇3》下他
附件中可以对《》、{}、【】等这些字符进行提取

Original comment by sling...@gmail.com on 18 Dec 2013 at 2:13

GoogleCodeExporter commented 9 years ago
如果只需要提取《》,则可以更简单一点。

Original comment by sling...@gmail.com on 18 Dec 2013 at 2:35

Attachments: