Closed SunEternal closed 3 years ago
你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗?
你好,使用他的源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?
您好,我使用了自己本地的一些数据集进行测试,但是发现引入了关键词信息之后,输出的结果趋于极端化,结果呈现完全的接近0或1,经过我后面的对比分析发现。输出结果几乎完全被关键词左右,比如“图片”-“壁纸”这一对相似词义,本应输出为1,但是几乎所有的包含图片和壁纸的query对,都输出为0。 如果在特定的标注好的训练集和测试集下,引入关键词是可以提升的,但是如果是没有见过的数据集或者关键词呢,这样会不会带来更多的副作用。