Open Lier007 opened 4 years ago
请问如果我是多标签任务,在每个维度独立做二分类 1.可以直接用KL散度做蒸馏loss吗 2.可以用类别维度的熵表示不确定性吗
我们还没有做个多标签分类的尝试,在多标签分类里,不同的标签的uncertainty会不一样。
1.不好意思哈,我表达的有问题。是想问:多标签依然用FastBERT的KL散度做loss是否合理?毕竟多分类softmax后能看作类别维度上的一个分布,KL散度顺理成章;但是多标签没这个性质。感觉直接用KL不太合理 2.第一感觉也是这样做。1也同理,所有标签的KL取平均。道理上感觉每个标签独立处理说的通,但还是怪怪的。相当于一个样本在所有维度上都很确定才能提前出模型,这个应该挺难满足的。
想的不是很清楚,回头有空做下实验再来反馈
层主,你的实验有效果么?我在此模型基础上修改做NER的相关实验,实验结果并不理想,请问一下,你的结果如何?可否讨论一下?
层主,你的实验有效果么?我在此模型基础上修改做NER的相关实验,实验结果并不理想,请问一下,你的结果如何?可否讨论一下?
FastBERT目前不适合NER任务,因为NER中需要对每个字进行一次分类,一个句子中不同的字分类可能有不同的uncertainty, 那么一个句子究竟该走几层就不确定了。请问您是如何处理这个问题的?
层主,你的实验有效果么?我在此模型基础上修改做NER的相关实验,实验结果并不理想,请问一下,你的结果如何?可否讨论一下?
FastBERT目前不适合NER任务,因为NER中需要对每个字进行一次分类,一个句子中不同的字分类可能有不同的uncertainty, 那么一个句子究竟该走几层就不确定了。请问您是如何处理这个问题的?
uncertainty那里我求的是整体的得分,再求个平均(为了能跑通,这么处理的)。但是我发现蒸馏那里,好像并不适合NER,我求出来的标签全部变成了“O”标签。其他标签都出不来了。所以我并没有解决这个问题。QAQ!!!!!!
层主,你的实验有效果么?我在此模型基础上修改做NER的相关实验,实验结果并不理想,请问一下,你的结果如何?可否讨论一下?
FastBERT目前不适合NER任务,因为NER中需要对每个字进行一次分类,一个句子中不同的字分类可能有不同的uncertainty, 那么一个句子究竟该走几层就不确定了。请问您是如何处理这个问题的?
uncertainty那里我求的是整体的得分,再求个平均(为了能跑通,这么处理的)。但是我发现蒸馏那里,好像并不适合NER,我求出来的标签全部变成了“O”标签。其他标签都出不来了。所以我并没有解决这个问题。QAQ!!!!!!
请问下,你NER蒸馏时loss收敛了么?我的没有收敛,一直到30多下不去了,看了下各层loss,1-6层的比较大(值在4-9之间),后面几层比较小。uncertainty处理和你一样的,speed设0.1,准确率64%,speed0.5, 准确率57%
大佬,可以交流一下么?
---原始邮件--- 发件人: "丁建平"<notifications@github.com> 发送时间: 2020年7月29日(周三) 下午5:54 收件人: "autoliuweijie/FastBERT"<FastBERT@noreply.github.com>; 抄送: "naipengye_ahu"<237170569@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [autoliuweijie/FastBERT] 多标签分类是否可行? (#8)
层主,你的实验有效果么?我在此模型基础上修改做NER的相关实验,实验结果并不理想,请问一下,你的结果如何?可否讨论一下?
FastBERT目前不适合NER任务,因为NER中需要对每个字进行一次分类,一个句子中不同的字分类可能有不同的uncertainty, 那么一个句子究竟该走几层就不确定了。请问您是如何处理这个问题的?
uncertainty那里我求的是整体的得分,再求个平均(为了能跑通,这么处理的)。但是我发现蒸馏那里,好像并不适合NER,我求出来的标签全部变成了“O”标签。其他标签都出不来了。所以我并没有解决这个问题。QAQ!!!!!!
请问下,你NER蒸馏时loss收敛了么?我的没有收敛,一直到30多下不去了,看了下各层loss,1-6层的比较大(值在4-9之间),后面几层比较小。uncertainty处理和你一样的,speed设0.1,准确率64%,speed0.5, 准确率57%
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
请问如果我是多标签任务,在每个维度独立做二分类 1.可以直接用KL散度做蒸馏loss吗 2.可以用类别维度的熵表示不确定性吗