Open mcaresein opened 1 week ago
No, neanche a me è stata ovvia...:). Leggendo un po' qua e là la normalizzazione pare produrre migliori performance di convergenza durante la fase di allenamento dell'algoritmo (cosa che, francamente, non mi è appunto chiarissima ma indagherò meglio...). I due valori inseriti come parametri nel metodo sono la media e la deviazione standard dei valori dei pixel nel dataset MNIST: in sostanza, sono valori tipici del dataset che consideri e per il MNIST pare siano quelli. Cambiano quindi da dataset a dataset.
Ok interessante quindi ad intuito mi ricorda quello che fa il LayerNorm, però appunto su tutto il dataset e all'inizio... da quanto avevo capito in genere queste cose si fanno per riportare i pesi nel valore intorno alla nonlinearità delle attivazioni
https://github.com/francescogrienti/PyTorchLearning/blob/8d8bfe760274f6ffb771d3c752513e7b0a525d1e/Exercise2/DNN_MINST.py#L101C1-L102C1
Magari e' ovvia ma ad occhio non la capisco