shibing624 / text2vec

text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。
https://pypi.org/project/text2vec/
Apache License 2.0
4.48k stars 396 forks source link

为什么训练集不能shuffle呢,shuffle之后效果下降很多 #88

Closed programmeguru closed 1 year ago

programmeguru commented 1 year ago

Describe the Question

Please provide a clear and concise description of what the question is.

shibing624 commented 1 year ago

训练之前,本地把数据集shuffle了可以。训练中通过奇偶对找pair,不要shuffle

HaoRenkk123 commented 1 year ago

多卡训练出来打印的labels在batch中没有成对出现呢,是什么原因呢,我看在dataloader这边labels:tensor([1., 0., 1., 0., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 0.],代码中shuffle看上去也确实都是shuffle=False了的,我训练的时候会出现loss=nan的情况,于是检查了loss=nan的时候的labels,发现labels在batch中并没有成对出现

shibing624 commented 1 year ago

那你单卡训练。