验证集指标 - Githubissues

xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型

Apache License 2.0

108 stars 12 forks source link

Closed Yvonne-LOK closed 4 months ago

Yvonne-LOK commented 4 months ago

你好！我用ChERRANT 在验证集上评估，排除掉所有正确样本、去掉所有的标点符号后，计算指标如下：

而issue29的朋友的指标如下：

我是按照run_stg_joint.sh给出的脚本和默认参数，用本仓库首页给的ckpt推理的，但是P和F0.5值比issue29中的低了3-4个点。想问一下我得到的指标是正常结果吗？是否是脚本里有哪个重要的参数需要我改一下，或者是因为这里的验证集又更新了？附上我运行的脚本：

谢谢！

xlxwalex commented 4 months ago

你好，

我觉得或许你可以试试看把sp_map关了看看，我不是很确定这个会不会影响到结果。因为看ISSUE29的朋友的描述，他在测试集上的性能和我们测的是一样的（我们也没有开sp_map），所以我感觉他应该是没有开，所以你可以试试看对比一下。

Yvonne-LOK commented 4 months ago

感谢你的及时回复！

我记得issue10里面提到增加sp_map是用于处理标点符号的。我把sp_map设置成false之后，指标确实和ISSUE29的朋友去掉标点符号之前的指标差不多，如下图：

请问是需要不依赖sp_map参数、自己手动把数据中的标点符号去掉嘛？谢谢！

xlxwalex commented 4 months ago

是的，需要手工去掉标点去对比一下，应该能和他的结果一致。

Yvonne-LOK commented 4 months ago

好的我试一下，非常感谢~

Yvonne-LOK commented 4 months ago

去掉标点后只有FP的值不一致，我的是620，如下图：

ISSUE29的FP则是581，感觉差的还是有点多

xlxwalex commented 4 months ago

我这边给你一下我去掉的标点符号的集合作为参考，如下所示：

"""！？｡。，,.;:《》'$%^&*()!@#~`?/\|<>"“”：；、%&……！＂＃＄％＆＇（）＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""

因为我不是很清楚ISSUE29的朋友做的处理，因此如果还是不一致的话，你可以在ISSUE29中@他，可能可以讨论一下，然后我会把那个ISSUE在开放起来

Yvonne-LOK commented 4 months ago

好的好的，我再试一下~非常感谢！

Yvonne-LOK commented 4 months ago

@xlxwalex 你好！我用了你的标点符号集合之后，指标就一致了，非常感谢你的耐心解答！

xlxwalex commented 4 months ago

@xlxwalex 你好！我用了你的标点符号集合之后，指标就一致了，非常感谢你的耐心解答！

好的，那太棒了哈哈！