ner评估是用的那个值 - Githubissues

ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

https://ieeexplore.ieee.org/document/9599397

Apache License 2.0

9.68k stars 1.39k forks source link

ner评估是用的那个值 #7

Closed ak47-1234 closed 5 years ago

ak47-1234 commented 5 years ago

seqeval的评估值有micro avg和 macro avg，报告里写的是那个值？ precision recall f1-score support

   MISC       0.00      0.00      0.00         1
    PER       1.00      1.00      1.00         1

micro avg 0.50 0.50 0.50 2 macro avg 0.50 0.50 0.50 2

ymcui commented 5 years ago

micro 微平均，也是seqeval中默认的配置。 https://github.com/chakki-works/seqeval/blob/master/seqeval/metrics/sequence_labeling.py#L116

ymcui commented 5 years ago

如有其它问题，欢迎随时reopen。

ak47-1234 commented 5 years ago

1.您好，我复现ner的结果，普遍要比提供的结果低一个百分点，ner的fintuning程序是有加什么吗？ 2.另外结果评估是取的每次训练的最后结果，还是每次训练的epoch中的最大值 3.另外在daily people数据有一些错误标记，入I-PER在B-PER，这样的数据是怎样处理的

ymcui commented 5 years ago

你好，

代码上可以参考：https://github.com/ProHiryu/bert-chinese-ner/blob/master/BERT_NER.py 如果你用参数设置和我们汇报的一致，那至少应该达到标称的平均值。
在报告和README中提到，我们同时汇报最大值和平均值（平均值显示在括号内）。
由于运行过程中并没有异常，这一部分我们没有做特殊处理。

ak47-1234 commented 5 years ago

warmup_proportion是多大？

ymcui commented 5 years ago

文中没有提到的都使用默认值，warmup默认是0.1

ymcui commented 5 years ago

reopen if necessary

ak47-1234 commented 5 years ago

你好一下是我复现的people daily结果（参数保持一致）， BERT-wwm 95.4 (95.1) 95.3 (95.0)95.3 (95.1) BERT-wwm 复现 94.7 (94.4) 94.6 (95.2) 95.2 (94.8) f1的结果基本一致，但percision和recall相差较大，普遍较低，是否有转大小写，或者有什么需要注意的地方

ymcui commented 5 years ago

batch大小用的是64吗？另外，我们使用的是TensorFlow 1.14版本。
大小写转换与BERT默认一致，原版BERT-base Chinese是一个uncased模型，所以do_lower_case=True。
你复现的结果中，召回率部分显示最大值94.6，平均值95.2，是不是写错了。
根据实验记录，P/R/F最低值分别为：94.84、94.68、94.76，供参考。

ak47-1234 commented 5 years ago

召回最大值是95.6 跑出的p普遍要低一些

ymcui commented 5 years ago

附一组结果供参考。

               precision    recall  f1-score   support
        LOC      97.16     95.17     96.15      2875
        PER      96.76     96.47     96.62      1984
        ORG      89.78     93.69     91.69      1331

avg / total      95.45     95.27     95.34      6190