wzzzd / text_classifier_pytorch

基于Pytorch的文本分类框架,支持TextCNN、Bert、Electra等。
58 stars 10 forks source link

predict #9

Open dhl961123 opened 1 year ago

dhl961123 commented 1 year ago

1、请问在进行模型效能预测的时候,如何指定特定的数据集进行预测; 2、可以对未填注标签的文本数据进行预测吗?(例如:data = {'src':src, 'label':label, 'pred':pred} 数据集没有label)

感谢解答

dhl961123 commented 1 year ago

训练集: (模型训练都是带标签) 午评沪指涨0.78%逼近2800 汽车家电农业领涨 2 卡佩罗:告诉你德国脚生猛的原因 不希望英德战踢点球 7 测试集:在进行模型预测时,对于确实标签的如何进行预测

wzzzd commented 1 year ago
  1. 将Config.py文件中的变量path_datasets,改成你的数据目录。同时把待预测数据集按照格式处理好,改成文件名为test.txt就好了。
  2. 将未标注文本给上标签0,就可以了。预测结果文件中,忽略这个标注,只看predict那一列就可以 如:在进行模型预测时,对于确实标签的如何进行预测 0
dhl961123 commented 1 year ago

好的,感谢解答

dhl961123 commented 1 year ago

在进行预测过程中,所有类别未知(全设置为0)会出现如下报错情况: ValueError: Number of classes, 6, does not match size of target_names, 13. Try specifying the labels parameter

将类别进行随机数设置,不会出现报错,请问这个初始设置有什么最低要求吗?

wzzzd commented 1 year ago

应该是metrics.classification_report或metrics.confusion_matrix的问题,因为在测试集跑这两个过程没有意义,最新的代码已经把module/Predictor.py的这两个计算逻辑屏蔽了。