boostcampaitech4lv23nlp1 / final-project-level3-nlp-03

Multi-Modal Model for DocVQA(Document Visual Question Answering)
3 stars 0 forks source link

feat: post_init #31

Closed Ssunbell closed 1 year ago

Ssunbell commented 1 year ago

nn.Linear, nn.Embedding 등 learnable or bias가 있는 경우 random initialization을 하게 되는데 이때, 트랜스포머에서 제공하는 init_weights를 사용해줘야함 이 경우 nn.Module을 상속받는 것이 아닌 PretrainedModel을 상속받아야 함

init_weights 혹은 torch.nn.init.xavier_uniform(Linear.weight)를 하지 않을 경우 랜덤하게 값이 초기화되서 결과 값이 바뀌어버리는 현상이 발샘