xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
108 stars 12 forks source link

验证集指标 #38

Closed Yvonne-LOK closed 4 months ago

Yvonne-LOK commented 4 months ago

你好!我用ChERRANT 在验证集上评估,排除掉所有正确样本、去掉所有的标点符号后,计算指标如下: image

而issue29的朋友的指标如下: image

我是按照run_stg_joint.sh给出的脚本和默认参数,用本仓库首页给的ckpt推理的,但是P和F0.5值比issue29中的低了3-4个点。 想问一下我得到的指标是正常结果吗?是否是脚本里有哪个重要的参数需要我改一下,或者是因为这里的验证集又更新了? 附上我运行的脚本: image

谢谢!

xlxwalex commented 4 months ago

你好,

我觉得或许你可以试试看把sp_map关了看看,我不是很确定这个会不会影响到结果。因为看ISSUE29的朋友的描述,他在测试集上的性能和我们测的是一样的(我们也没有开sp_map),所以我感觉他应该是没有开,所以你可以试试看对比一下。

Yvonne-LOK commented 4 months ago

感谢你的及时回复!

我记得issue10里面提到增加sp_map是用于处理标点符号的。我把sp_map设置成false之后,指标确实和ISSUE29的朋友去掉标点符号之前的指标差不多,如下图: image

请问是需要不依赖sp_map参数、自己手动把数据中的标点符号去掉嘛? 谢谢!

xlxwalex commented 4 months ago

是的,需要手工去掉标点去对比一下,应该能和他的结果一致。

Yvonne-LOK commented 4 months ago

好的我试一下,非常感谢~

Yvonne-LOK commented 4 months ago

去掉标点后只有FP的值不一致,我的是620,如下图: image

ISSUE29的FP则是581,感觉差的还是有点多

xlxwalex commented 4 months ago

我这边给你一下我去掉的标点符号的集合作为参考,如下所示:

"""!?。。,,.;:《》'$%^&*()!@#~`?/\|<>"“”:;、%&……!"#$%&'()*+-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""

因为我不是很清楚ISSUE29的朋友做的处理,因此如果还是不一致的话,你可以在ISSUE29中@他,可能可以讨论一下,然后我会把那个ISSUE在开放起来

Yvonne-LOK commented 4 months ago

好的好的,我再试一下~非常感谢!

Yvonne-LOK commented 4 months ago

@xlxwalex 你好!我用了你的标点符号集合之后,指标就一致了,非常感谢你的耐心解答! image

xlxwalex commented 4 months ago

@xlxwalex 你好!我用了你的标点符号集合之后,指标就一致了,非常感谢你的耐心解答! image

好的,那太棒了哈哈!