meetU-MasterStudents / 2019---2020-partage

For exchanging material and doc
2 stars 3 forks source link

score normalization - upstream teams #18

Open annelopes opened 4 years ago

annelopes commented 4 years ago

Dear all,

below, an issue we posted last year to help you normalize your profile-profile scores.

Do not hesitate if you have any questions - we can discuss Friday.

See you on Friday,

Anne

=========================

Bonjour à tous,

Dans le répertoire Biblio, vous trouverez la publication (Wang & Dunbrack 2004) qui propose et teste différents systèmes de scoring profile-profile. Sont présentés par exemple le produit scalaire, le coefficient de corrélation de Pearson, le sum-of-pairs...etc pour évaluer le score entre 2 colonnes des 2 profiles que vous voulez aligner. Cela peut vous donner des idées pour développer vos stratégies de scoring. De plus, vous trouverez aussi, dans la Table 1 de l'article, des paramètres de pénalités de gaps optimisés pour chaque système de scoring proposé. Vous pouvez utiliser ces paramètres.

Par ailleurs, nous vous fournissons ici quelques explications pour calibrer vos scores colonne-colonne. L'idée est de normaliser vos scores à partir d'une distribution de scores de référence, où les scores seront calculés entre un grand nombre de paires de colonnes prises au hasard (théorème central limite => distribution normale).

Notez bien que pour deux profils i et j (de tailles n et m respectivement) pris au hasard dans la base HOMSTRAD, vous allez faire le produit de toutes les colonnes avec toutes les colonnes soit n*m produits. Par ailleurs, notez aussi que les deux profils i et j ne sont pas alignés. Cette étape sert à créer un modèle "nul" qui vous servira de référence.

On vous propose que lorsque vous avez calculé la moyenne et l'écart type de votre distribution de référence, vous déposiez ces valeurs dans cette issue qu'on puisse les comparer et vérifier que tout va bien. Normalement vous devriez tous avoir les mêmes valeurs globalement.

Bien sûr il faudra préciser quelle stratégie de scoring vous avez utilisée (produit scalaire, corrélation de Pearson etc) et ce qui est encodé dans votre profil (ex : alphabet de 20 aas, ou alphabet réduit, prédiction de structures secondaires etc). En effet, ces paramètres peuvent avoir un effet sur la moyenne et l'écart type de votre distribution de référence.

ajustements_pw_scores

N'hésitez pas si vous avez des questions. Anne, Elodie & Hugues.

leonfaure commented 4 years ago

µ=25.39 sigma=25.24

Nous avons utilisé la méthode de comparaison Profile-Profile "DotOdds", ce qui donne des grands scores (d'où les grandes valeures).

florianecoulmance commented 4 years ago

Hello Anne,

My team (team 3 : Léon, Gaspard, Emile, Floriane) has calculated the normalisation parameters µ and sigma as you said in this issue. We took random values of HOMSTRAD PSSM that we previously created to make the distribution.

However, in the Wang 2003 Scoring profiles paper, it seems like they calculated a µ and sigma per column comparison between 2 profiles.

We are a bit lost here and would like to understand fully how this normalisation work and what we can deduce from it.

Best regards,

Floriane

Screenshot_1

elolaine commented 4 years ago

Hi Floriane,

You are right, the normalization proposed in the paper is done for each considered pair of profiles, whereas what we proposed to you was to normalize over NxN pairs of profiles. In practice, I don't know how this will impact the results. Maybe you can try both normalizations and analyze what works best...? This can be interesting.

Best Elodie