WenRichard / KBQA-BERT

基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式
MIT License
1.45k stars 349 forks source link

你好,想请教一下关于评价指标的问题 #8

Closed Ironeie closed 5 years ago

Ironeie commented 5 years ago

代码里计算的是accuracy,论文中提到“官方评测最终结果采用的评价指标为平均F1 值。由于 每个样例的标准答案和候选答案均为集合的形式,因此每个样例都可以得到一个F1 值,最后取所有样例F1 值的平均”,但是我发现NLPCC数据集中每个样例的标准答案都只有一个啊,与论文中“每个样例的标准答案和候选答案均为集合的形式”不符,因此也无法计算F1值,这是怎么回事呢?我在可供查阅的资料中都找不到如何在这个数据集中计算F1值的方法,因此只好请教您一下,能得到您的帮助就太好了

WenRichard commented 5 years ago

你好,这个项目是我们系统的一个demo,不是专门为比赛而构建的,所以评价指标和比赛的有偏差,但是每个样例的标准答案有些是不止一个的。

Ironeie commented 5 years ago

所以给出的论文是您团队的作品吗?还是别人写的作为参考呢

---原始邮件--- 发件人: "一梦南柯"notifications@github.com 发送时间: 2019年7月23日(星期二) 中午11:01 收件人: "WenRichard/KBQA-BERT"KBQA-BERT@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Ironeie"353335519@qq.com; 主题: Re: [WenRichard/KBQA-BERT] 你好,想请教一下关于评价指标的问题 (#8)

你好,这个项目是我们系统的一个demo,不是专门为比赛而构建的,所以评价指标和比赛的有偏差,但是每个样例的标准答案有些是不止一个的。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

WenRichard commented 5 years ago

所以给出的论文是您团队的作品吗?还是别人写的作为参考呢 ---原始邮件--- 发件人: "一梦南柯"notifications@github.com 发送时间: 2019年7月23日(星期二) 中午11:01 收件人: "WenRichard/KBQA-BERT"KBQA-BERT@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Ironeie"353335519@qq.com; 主题: Re: [WenRichard/KBQA-BERT] 你好,想请教一下关于评价指标的问题 (#8) 你好,这个项目是我们系统的一个demo,不是专门为比赛而构建的,所以评价指标和比赛的有偏差,但是每个样例的标准答案有些是不止一个的。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

是参考别人的论文的