准确率没那么高？大家如何呢？

prepared48 commented 4 years ago

使用了新的数据集，字典5300，训练集750000，验证集8000，测试集83599. 结果不理想。

` Epoch [1/20] Iter: 0, Train Loss: 3.7, Train Acc: 0.00%, Val Loss: 3.1, Val Acc: 4.48%, Time: 0:01:14 *

Iter: 100, Train Loss: 2.7e-05, Train Acc: 100.00%, Val Loss: 2.3e+01, Val Acc: 4.46%, Time: 0:05:59

Iter: 200, Train Loss: 9.7e-08, Train Acc: 100.00%, Val Loss: 2.4e+01, Val Acc: 4.47%, Time: 0:10:55

Iter: 300, Train Loss: 4.6e-06, Train Acc: 100.00%, Val Loss: 3.6e+01, Val Acc: 0.96%, Time: 0:15:56

Iter: 400, Train Loss: 0.0001, Train Acc: 100.00%, Val Loss: 2.3e+01, Val Acc: 2.36%, Time: 0:20:57

Iter: 500, Train Loss: 0.0016, Train Acc: 100.00%, Val Loss: 9.8, Val Acc: 18.74%, Time: 0:26:16

Iter: 600, Train Loss: 0.0025, Train Acc: 100.00%, Val Loss: 1.1e+01, Val Acc: 18.76%, Time: 0:32:22

Iter: 700, Train Loss: 0.00082, Train Acc: 100.00%, Val Loss: 1.2e+01, Val Acc: 18.76%, Time: 0:38:37

Iter: 800, Train Loss: 0.00033, Train Acc: 100.00%, Val Loss: 1.4e+01, Val Acc: 18.75%, Time: 0:44:52

Iter: 900, Train Loss: 5e-06, Train Acc: 100.00%, Val Loss: 1.5e+01, Val Acc: 18.75%, Time: 0:51:07

Iter: 1000, Train Loss: 1e-06, Train Acc: 100.00%, Val Loss: 1.5e+01, Val Acc: 18.75%, Time: 0:57:40 `

Weaverzhu commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好，76左右，不知道是不是没调参的原因

gezhaoDL commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好，76左右，不知道是不是没调参的原因

问下有什么好的技巧吗，我自己的数据集结果也只有63%，词表也是用的自己的训练集建的

Weaverzhu commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好，76左右，不知道是不是没调参的原因

问下有什么好的技巧吗，我自己的数据集结果也只有63%，词表也是用的自己的训练集建的

可能你本身的数据就是比较难以预测（时政如果还要进一步被分为国内，国际就比较难区分），我自己的数据也是目标分类和thunews不一样，所以本身就比较难

gezhaoDL commented 4 years ago

这个准确率看起来像数据没打乱。。如果训练样本中同类扎堆的话优化效果不好的。不过我自己的数据也不好，76左右，不知道是不是没调参的原因

问下有什么好的技巧吗，我自己的数据集结果也只有63%，词表也是用的自己的训练集建的

可能你本身的数据就是比较难以预测（时政如果还要进一步被分为国内，国际就比较难区分），我自己的数据也是目标分类和thunews不一样，所以本身就比较难

感谢回复，不过我不清楚数据需要什么样的会比较好分类，我用的京东商品评论，label是商品评论上面的标签，目前只分了10类，数据量20w左右

hhqd commented 2 years ago

打乱数据集的方法：在utils.py里 train = load_dataset(config.train_path, config.pad_size)后面加一行代码 random.shuffle(train)

测试集、验证集同理

ohhhhhhhhhhhhhhhh commented 1 year ago

我的是90.36%，没有达到作者的91%+

649453932 / Chinese-Text-Classification-Pytorch

准确率没那么高？大家如何呢？ #35