nn.Linear, nn.Embedding 등 learnable or bias가 있는 경우 random initialization을 하게 되는데
이때, 트랜스포머에서 제공하는 init_weights를 사용해줘야함
이 경우 nn.Module을 상속받는 것이 아닌 PretrainedModel을 상속받아야 함
init_weights 혹은 torch.nn.init.xavier_uniform(Linear.weight)를 하지 않을 경우 랜덤하게 값이 초기화되서
결과 값이 바뀌어버리는 현상이 발샘
nn.Linear, nn.Embedding 등 learnable or bias가 있는 경우 random initialization을 하게 되는데 이때, 트랜스포머에서 제공하는 init_weights를 사용해줘야함 이 경우 nn.Module을 상속받는 것이 아닌 PretrainedModel을 상속받아야 함
init_weights 혹은 torch.nn.init.xavier_uniform(Linear.weight)를 하지 않을 경우 랜덤하게 값이 초기화되서 결과 값이 바뀌어버리는 현상이 발샘