В тртьей домашке про Language Modeling накосячил с подсчетом loss. А именно, вместо того, чтобы считать маску по inputs[:, 1:] (то есть по последовательности без BOS), я считал маску по inputs[:, :-1] (последовательности без последнего EOS).
А это неправильно, пример input = bos A n n a eos eos. Валидных 5 токенов, а если считать, как я, то получится 6.
Текущий тест это не проверяет, так там стоят очень большие длины для входа dummy_lines, у которого максимально возможная длина 15.
В тртьей домашке про Language Modeling накосячил с подсчетом loss. А именно, вместо того, чтобы считать маску по
inputs[:, 1:]
(то есть по последовательности без BOS), я считал маску поinputs[:, :-1]
(последовательности без последнего EOS).А это неправильно, пример
input = bos A n n a eos eos
. Валидных 5 токенов, а если считать, как я, то получится 6.Текущий тест это не проверяет, так там стоят очень большие длины для входа
dummy_lines
, у которого максимально возможная длина 15.