shibing624 / text2vec

text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。
https://pypi.org/project/text2vec/
Apache License 2.0
4.48k stars 396 forks source link

训练数据正负样本的比例 #97

Closed baisuzi closed 1 year ago

baisuzi commented 1 year ago

Describe the Question

我在垂域数据上构造了一个label只有0,1标签的二分类数据集,在此数据集上训练CoSENT模型,正负样本的比例能够达到1:80,因为训练一次时间比较久,想请教一下正负样本比例相差太大是否反而会降低训练的效果呢,大家的经验是比例控制在多少比较好呢

shibing624 commented 1 year ago

1:1