How does parameter initialization influencce performance?

scaomath / galerkin-transformer

[NeurIPS 2021] Galerkin Transformer: a linear attention without softmax for Partial Differential Equations

MIT License

214 stars 28 forks source link

Hi Cao, I notice the parameter initialization in your code.

def _reset_parameters(self):
        for param in self.linears.parameters():
            if param.ndim > 1:
                xavier_uniform_(param, gain=self.xavier_init)
                if self.diagonal_weight > 0.0:
                    param.data += self.diagonal_weight * \
                        torch.diag(torch.ones(
                            param.size(-1), dtype=torch.float))
                if self.symmetric_init:
                    param.data += param.data.T
                    # param.data /= 2.0
            else:
                constant_(param, 0)

Does it influence the performance greatly? And why do you initialize the linear layers like this? Thank you very much!

scaomath / galerkin-transformer

How does parameter initialization influencce performance? #2