649453932 / Chinese-Text-Classification-Pytorch

中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。
MIT License
5.25k stars 1.22k forks source link

准确率没那么高?大家如何呢? #35

Open prepared48 opened 4 years ago

prepared48 commented 4 years ago

使用了新的数据集,字典5300,训练集750000,验证集8000,测试集83599. 结果不理想。

` Epoch [1/20] Iter: 0, Train Loss: 3.7, Train Acc: 0.00%, Val Loss: 3.1, Val Acc: 4.48%, Time: 0:01:14 *

Iter: 100, Train Loss: 2.7e-05, Train Acc: 100.00%, Val Loss: 2.3e+01, Val Acc: 4.46%, Time: 0:05:59

Iter: 200, Train Loss: 9.7e-08, Train Acc: 100.00%, Val Loss: 2.4e+01, Val Acc: 4.47%, Time: 0:10:55

Iter: 300, Train Loss: 4.6e-06, Train Acc: 100.00%, Val Loss: 3.6e+01, Val Acc: 0.96%, Time: 0:15:56

Iter: 400, Train Loss: 0.0001, Train Acc: 100.00%, Val Loss: 2.3e+01, Val Acc: 2.36%, Time: 0:20:57

Iter: 500, Train Loss: 0.0016, Train Acc: 100.00%, Val Loss: 9.8, Val Acc: 18.74%, Time: 0:26:16

Iter: 600, Train Loss: 0.0025, Train Acc: 100.00%, Val Loss: 1.1e+01, Val Acc: 18.76%, Time: 0:32:22

Iter: 700, Train Loss: 0.00082, Train Acc: 100.00%, Val Loss: 1.2e+01, Val Acc: 18.76%, Time: 0:38:37

Iter: 800, Train Loss: 0.00033, Train Acc: 100.00%, Val Loss: 1.4e+01, Val Acc: 18.75%, Time: 0:44:52

Iter: 900, Train Loss: 5e-06, Train Acc: 100.00%, Val Loss: 1.5e+01, Val Acc: 18.75%, Time: 0:51:07

Iter: 1000, Train Loss: 1e-06, Train Acc: 100.00%, Val Loss: 1.5e+01, Val Acc: 18.75%, Time: 0:57:40 `

Weaverzhu commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好,76左右,不知道是不是没调参的原因

gezhaoDL commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好,76左右,不知道是不是没调参的原因

问下有什么好的技巧吗,我自己的数据集结果也只有63%,词表也是用的自己的训练集建的

Weaverzhu commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好,76左右,不知道是不是没调参的原因

问下有什么好的技巧吗,我自己的数据集结果也只有63%,词表也是用的自己的训练集建的

可能你本身的数据就是比较难以预测(时政如果还要进一步被分为国内,国际就比较难区分),我自己的数据也是目标分类和thunews不一样,所以本身就比较难

gezhaoDL commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好,76左右,不知道是不是没调参的原因

问下有什么好的技巧吗,我自己的数据集结果也只有63%,词表也是用的自己的训练集建的

可能你本身的数据就是比较难以预测(时政如果还要进一步被分为国内,国际就比较难区分),我自己的数据也是目标分类和thunews不一样,所以本身就比较难

感谢回复,不过我不清楚数据需要什么样的会比较好分类,我用的京东商品评论,label是商品评论上面的标签,目前只分了10类,数据量20w左右

hhqd commented 2 years ago

打乱数据集的方法: 在utils.py里 train = load_dataset(config.train_path, config.pad_size)后面加一行代码 random.shuffle(train)

测试集、验证集同理

ohhhhhhhhhhhhhhhh commented 1 year ago

我的是90.36%,没有达到作者的91%+