yhcc / CNN_Nested_NER

105 stars 7 forks source link

在论文中gelu是被用到的,但是在您这段代码中,最后一次的gelu是没有用到的,这个是否会对结果有较大影响呢? #16

Open wmc1421910835 opened 1 year ago

wmc1421910835 commented 1 year ago

图片

还想问一个,就是为什么我在用您的代码能跑通,但是precision,f等分数都是0.0,是我哪里用错了吗? 图片 这是用到的gpu 图片

yhcc commented 5 months ago

最后一次应该不能用gelu了,因为他马上要输出会经过sigmoid了。 第二个问题我感觉和gpu应该是无关的,你可以尝试看看能不能overfit一小部分数据