gigaZhang / mmseg4j

Automatically exported from code.google.com/p/mmseg4j
Apache License 2.0
0 stars 0 forks source link

html代码支持分词吗 #49

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
我现在有这样的字符串 "金属 > 金属丝", > 
是html代码对吧, 我想分成 三个词
1.金属 
2.> 
3. 金属丝

我试了不行, 请问官方可行吗?

Original issue reported on code.google.com by sbcqw...@gmail.com on 19 Mar 2013 at 4:45

GoogleCodeExporter commented 8 years ago
分词的时候就是分成三个词,不过“;”会被去掉
还有哥么 > 这个东西作为一个词语好像没有什么意义
作为文章的搜索,大多会把html相关的标签给过滤掉  
不然会影响搜索的性能和效果

Original comment by wskb...@gmail.com on 3 Dec 2014 at 12:13