训练数据正负样本的比例

shibing624 / text2vec

text2vec, text to vector. 文本向量表征工具，把文本转化为向量矩阵，实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型，开箱即用。

https://pypi.org/project/text2vec/

Apache License 2.0

4.48k stars 396 forks source link

Closed baisuzi closed 1 year ago

baisuzi commented 1 year ago

我在垂域数据上构造了一个label只有0，1标签的二分类数据集，在此数据集上训练CoSENT模型，正负样本的比例能够达到1:80，因为训练一次时间比较久，想请教一下正负样本比例相差太大是否反而会降低训练的效果呢，大家的经验是比例控制在多少比较好呢

shibing624 commented 1 year ago

1:1