你好，想请教一下关于评价指标的问题

WenRichard / KBQA-BERT

基于知识图谱的问答系统，BERT做命名实体识别和句子相似度，分为online和outline模式

MIT License

1.45k stars 349 forks source link

你好，想请教一下关于评价指标的问题 #8

Closed Ironeie closed 5 years ago

Ironeie commented 5 years ago

代码里计算的是accuracy，论文中提到“官方评测最终结果采用的评价指标为平均F1 值。由于每个样例的标准答案和候选答案均为集合的形式，因此每个样例都可以得到一个F1 值，最后取所有样例F1 值的平均”，但是我发现NLPCC数据集中每个样例的标准答案都只有一个啊，与论文中“每个样例的标准答案和候选答案均为集合的形式”不符，因此也无法计算F1值，这是怎么回事呢？我在可供查阅的资料中都找不到如何在这个数据集中计算F1值的方法，因此只好请教您一下，能得到您的帮助就太好了

WenRichard commented 5 years ago

你好，这个项目是我们系统的一个demo，不是专门为比赛而构建的，所以评价指标和比赛的有偏差，但是每个样例的标准答案有些是不止一个的。

Ironeie commented 5 years ago

所以给出的论文是您团队的作品吗？还是别人写的作为参考呢

---原始邮件--- 发件人: "一梦南柯"notifications@github.com 发送时间: 2019年7月23日(星期二) 中午11:01 收件人: "WenRichard/KBQA-BERT"KBQA-BERT@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Ironeie"353335519@qq.com; 主题: Re: [WenRichard/KBQA-BERT] 你好，想请教一下关于评价指标的问题 (#8)

你好，这个项目是我们系统的一个demo，不是专门为比赛而构建的，所以评价指标和比赛的有偏差，但是每个样例的标准答案有些是不止一个的。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

WenRichard commented 5 years ago

所以给出的论文是您团队的作品吗？还是别人写的作为参考呢 … ---原始邮件--- 发件人: "一梦南柯"notifications@github.com 发送时间: 2019年7月23日(星期二) 中午11:01 收件人: "WenRichard/KBQA-BERT"KBQA-BERT@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Ironeie"353335519@qq.com; 主题: Re: [WenRichard/KBQA-BERT] 你好，想请教一下关于评价指标的问题 (#8) 你好，这个项目是我们系统的一个demo，不是专门为比赛而构建的，所以评价指标和比赛的有偏差，但是每个样例的标准答案有些是不止一个的。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

是参考别人的论文的