关于中文分词的方式

首先有一个细节，当我先用 --word False 也就是默认的 char 为单位运行代码，会生成相应的char的vocab，接下来如果我改成用 --word True 以词为单位运行代码时，并不会再次生成相应的词的vocab，因为这段代码里面做了判断，如果 vocab.pkl 存在就直接读取了，所以需要手动把 vocab.pkl 先删除掉。

    if os.path.exists(config.vocab_path):
        vocab = pkl.load(open(config.vocab_path, 'rb'))
    else:
        vocab = build_vocab(config.train_path, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1)
        pkl.dump(vocab, open(config.vocab_path, 'wb'))

另外在运行 --word True 时，发现测试集里面的中文分词效果并不好，很多就是整段整段的了，这里可能我自己可以再用分词库去处理一下了。

{'': 0, 'ThinkPad': 1, 'LG': 2, '2011': 3, 'CJ': 4, '明日股市三大猜想及应对策略': 5, 'HTC': 6, '不派息': 7, '图文-火箭常规训练': 8, '2010': 9, '每日晚间实力机构点评热门个股精选': 10, 'E3': 11, 'IdeaPad': 12, '十大机构看后市': 13, '股海导航': 14, '盘面解读：八大机构预测今日市场走向': 15, 'iPhone': 16 ...

649453932 / Chinese-Text-Classification-Pytorch

关于中文分词的方式 #51