Open johndkl opened 1 year ago
我的youtubednn训练很慢, 1024一个batch要花1分钟来训练, 也就是说500万行数据要2,3天, 同时显存占用率很高但是使用率低。 可能是数据读取比较慢但是测过数据读取时间应该不是这方面原因, 同样的数据读取格式DSSM只需要半小时, 差几十倍速度。
会不会是和我的mid size有关, 我的mid vocabulary size是1000万, 负采样num_sampled是500。 理论上SampledSoftmaxLoss的话和总的mid vocabulary size没有太大关系吧, 我也试过num_sampled=5,时间上没有变化。 不知道有人碰到过相似情况吗,谢谢。
我的youtubednn训练很慢, 1024一个batch要花1分钟来训练, 也就是说500万行数据要2,3天, 同时显存占用率很高但是使用率低。 可能是数据读取比较慢但是测过数据读取时间应该不是这方面原因, 同样的数据读取格式DSSM只需要半小时, 差几十倍速度。
会不会是和我的mid size有关, 我的mid vocabulary size是1000万, 负采样num_sampled是500。 理论上SampledSoftmaxLoss的话和总的mid vocabulary size没有太大关系吧, 我也试过num_sampled=5,时间上没有变化。 不知道有人碰到过相似情况吗,谢谢。