评测代码是有问题的

xmxoxo / BERT-train2deploy

BERT模型从训练到部署

517 stars 165 forks source link

Open nwf5d opened 4 years ago

nwf5d commented 4 years ago

使用提供的评测数据，得到的评测结果有问题。

eval_accuracy = 0.86040765 eval_f1 = 0.9527646 eval_loss = 0.5360181 eval_precision = 0.9510234 eval_recall = 0.95451

在precision和recall均在0.95时，accuracy理论上也在0.95左右作者给出的评测代码对于多分类情况同样也是有问题的。另外，因为tensorflow的tf.metrics实现的问题，在评测数据量较大时计算也会有问题。

nwf5d commented 4 years ago

如果能有评测结果的文件(格式可以是：正确标签\t预测标签\t正文)，使用sklearn的metrics包也可以得到正确结果。发现output目录下有eval.tf_record文件，估计只是方便后续处理生成的中间结果文件有没有方法可以输出最终的评测结果文件呢？

tengben0905 commented 4 years ago

precision = TP / (TP + FP) recall = TP / (TP + FN) accuracy = (TP + TN) / (TP + FP + TN + FN)

在precision和recall均在0.95时，accuracy理论上也在0.95左右

这个是怎么算出来的？