ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
https://ieeexplore.ieee.org/document/9599397
Apache License 2.0
9.68k stars 1.39k forks source link

ner评估是用的那个值 #7

Closed ak47-1234 closed 5 years ago

ak47-1234 commented 5 years ago

seqeval的评估值有micro avg和 macro avg,报告里写的是那个值? precision recall f1-score support

   MISC       0.00      0.00      0.00         1
    PER       1.00      1.00      1.00         1

micro avg 0.50 0.50 0.50 2 macro avg 0.50 0.50 0.50 2

ymcui commented 5 years ago

micro 微平均,也是seqeval中默认的配置。 https://github.com/chakki-works/seqeval/blob/master/seqeval/metrics/sequence_labeling.py#L116

ymcui commented 5 years ago

如有其它问题,欢迎随时reopen。

ak47-1234 commented 5 years ago

1.您好,我复现ner的结果,普遍要比提供的结果低一个百分点,ner的fintuning程序是有加什么吗? 2.另外结果评估是取的每次训练的最后结果,还是每次训练的epoch中的最大值 3.另外在daily people数据有一些错误标记,入I-PER在B-PER,这样的数据是怎样处理的

ymcui commented 5 years ago

你好,

  1. 代码上可以参考:https://github.com/ProHiryu/bert-chinese-ner/blob/master/BERT_NER.py 如果你用参数设置和我们汇报的一致,那至少应该达到标称的平均值
  2. 在报告和README中提到,我们同时汇报最大值和平均值(平均值显示在括号内)。
  3. 由于运行过程中并没有异常,这一部分我们没有做特殊处理。
ak47-1234 commented 5 years ago

warmup_proportion是多大?

ymcui commented 5 years ago

文中没有提到的都使用默认值,warmup默认是0.1

ymcui commented 5 years ago

reopen if necessary

ak47-1234 commented 5 years ago

你好一下是我复现的people daily结果(参数保持一致), BERT-wwm 95.4 (95.1) 95.3 (95.0)95.3 (95.1) BERT-wwm 复现 94.7 (94.4) 94.6 (95.2) 95.2 (94.8) f1的结果基本一致,但percision和recall相差较大,普遍较低,是否有转大小写,或者有什么需要注意的地方

ymcui commented 5 years ago
  1. batch大小用的是64吗?另外,我们使用的是TensorFlow 1.14版本。
  2. 大小写转换与BERT默认一致,原版BERT-base Chinese是一个uncased模型,所以do_lower_case=True
  3. 你复现的结果中,召回率部分显示最大值94.6,平均值95.2,是不是写错了。
  4. 根据实验记录,P/R/F最低值分别为:94.84、94.68、94.76,供参考。
ak47-1234 commented 5 years ago
  1. 召回最大值是95.6 跑出的p普遍要低一些
ymcui commented 5 years ago

附一组结果供参考。

               precision    recall  f1-score   support
        LOC      97.16     95.17     96.15      2875
        PER      96.76     96.47     96.62      1984
        ORG      89.78     93.69     91.69      1331

avg / total      95.45     95.27     95.34      6190