hejianning / mmseg4j

Automatically exported from code.google.com/p/mmseg4j
0 stars 0 forks source link

用max-word 模式分词“很好听” #16

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
What steps will reproduce the problem?
1.  java -cp .;mmseg4j-all-1.8.4.jar com.chenlb.mmseg4j.example.MaxWord
2. 然后输入:很好听
3.

What is the expected output? What do you see instead?
期望输出: 很好 | 好听
但是实际结果是: 很 | 好听

What version of the product are you using? On what operating system?
mmseg4j-all-1.8.4.jar

Please provide any additional information below.

Original issue reported on code.google.com by kuer...@gmail.com on 4 Jan 2011 at 7:30

GoogleCodeExporter commented 8 years ago
我觉得也应该如此分词。这样保证应该分的词语可以被分出��
�。

缺点是:多分出一部分词语来。
缺点评价:这个缺点 较 能够找到要分的词,比较小。

结论,应该如 kuer...@gmail.com 建议来切词。

Original comment by fantaxy0...@gmail.com on 10 Feb 2011 at 8:22

GoogleCodeExporter commented 8 years ago
Issue 15 has been merged into this issue.

Original comment by chenlb2...@gmail.com on 20 Jan 2013 at 4:26

GoogleCodeExporter commented 8 years ago
 为什么 1.6版本后  对 很好听 进行分词  变成 很|好听   了

        1.9的MaxWordSegTest
    @Test
    @Ignore
    public void testEffect7() throws IOException {
        String words = segW.segWords("很好听", "|");
        Assert.assertEquals("很好|好听", words);
    }

这个单元测试根本过不了

Original comment by xzhu1...@gmail.com on 20 Apr 2013 at 2:16

GoogleCodeExporter commented 8 years ago
测试发现   要把“很好听”分成  “很好|好听”的前提条件 
“很好听” 也是作为一个词存在词库中,词库中只有  
很好,好听  不能得到我想要的分词

希望作者能解开我的疑惑,谢谢

Original comment by xzhu1...@gmail.com on 21 Apr 2013 at 1:03

GoogleCodeExporter commented 8 years ago
楼上说的对,需要在词库中,包含很好  和  好听  两个词

Original comment by sling...@gmail.com on 24 May 2013 at 11:21

GoogleCodeExporter commented 8 years ago
maxword 是在 complex 分出词的基本上做分词。

@xzhu1986 所以有没有“很好听”词,得不出期望的效果。

Original comment by chenlb2...@gmail.com on 19 May 2014 at 12:19

GoogleCodeExporter commented 8 years ago
我认为这是词库根本就没有起作用的原因,我将词库清空,��
�后测试发现不管是 complex 还是 maxword
分出来都是 ”很“,“好听”

Original comment by wskb...@gmail.com on 3 Dec 2014 at 1:28