649453932 / Chinese-Text-Classification-Pytorch

中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。
MIT License
5.25k stars 1.22k forks source link

关于中文分词的方式 #51

Closed leewi9 closed 4 years ago

leewi9 commented 4 years ago

首先有一个细节,当我先用 --word False 也就是默认的 char 为单位运行代码,会生成相应的char的vocab,接下来如果我改成用 --word True 以词为单位运行代码时,并不会再次生成相应的词的vocab,因为这段代码里面做了判断,如果 vocab.pkl 存在就直接读取了,所以需要手动把 vocab.pkl 先删除掉。

    if os.path.exists(config.vocab_path):
        vocab = pkl.load(open(config.vocab_path, 'rb'))
    else:
        vocab = build_vocab(config.train_path, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1)
        pkl.dump(vocab, open(config.vocab_path, 'wb'))

另外在运行 --word True 时,发现测试集里面的中文分词效果并不好,很多就是整段整段的了,这里可能我自己可以再用分词库去处理一下了。

{'': 0, 'ThinkPad': 1, 'LG': 2, '2011': 3, 'CJ': 4, '明日股市三大猜想及应对策略': 5, 'HTC': 6, '不派息': 7, '图文-火箭常规训练': 8, '2010': 9, '每日晚间实力机构点评热门个股精选': 10, 'E3': 11, 'IdeaPad': 12, '十大机构看后市': 13, '股海导航': 14, '盘面解读:八大机构预测今日市场走向': 15, 'iPhone': 16 ...