Open yanwenjie1 opened 1 year ago
qw:[batchsize, 150, 8, 64], kw:[batchsize, 150, 8, 64] 依次应该是 batch_size max_len len(labels) dim_embedding 但是RoPEPositionEncoding的forward实现的时候,默认-2是max_len,应该是-3才对,相对应的下面的乘法也不太对
gp2解决了这个问题,请忽略我
qw:[batchsize, 150, 8, 64], kw:[batchsize, 150, 8, 64] 依次应该是 batch_size max_len len(labels) dim_embedding 但是RoPEPositionEncoding的forward实现的时候,默认-2是max_len,应该是-3才对,相对应的下面的乘法也不太对