UCLouvain-CBIO / CTexploreR

Explores Cancer Testis Genes
https://uclouvain-cbio.github.io/CTexploreR
0 stars 0 forks source link

CT_genes #23

Closed JulieDevis closed 1 year ago

JulieDevis commented 1 year ago

Correction de la documentation faite : très très bien décrite avec une description pour chaque colonne (ce qu'il n'y a pas toujours dans les autres jeux de données) Relecture du script faite

Si on veut changer certaines choses ici, il faut parfois aller plus haut dans CT_list, c'est pour ca que je n'ai pas mis de lien car il ne s'agit pas du script correspondant.

A discuter

JulieDevis commented 1 year ago

Pour percent_pos_tum et percent_neg_tum, comme ils sont bas, est ce que ça ne vaudrait pas la peine de mentionner dans la documentation pourquoi ça nous intéresse ?

C'est pas à nous d'expliquer ça

Dans la documentation, pour la colonne TCGA_category, il n'y a pas d'explication de ce que représente la valeur "multimapping_issue" alors qu'il y a pour l'autre valeur.

C'est ajouté

Dans la documentation, le promoteur est mentionné pour plusieurs colonnes, est-ce qu'il ne faudrait pas le définir selon les TSS+ et TSS- qui ont été choisis ? On pourrait ajouter une colonne prom_start et prom_end selon nous qui serait alors les coordonnées que l'on a utilisées ?

Ajouté à la docu que lorsqu'on parle de prom c'est 1000 upstream du TSS et 200 downstream du TSS

Je ne vois pas trop l'intérêt de la colonne q75_TPM_somatic dans ce jeu de données ci

Elle a été retirée du jeu de données d'où elle venait donc elle a disparu

Pour la colonne multimapping_analysis est-ce qu'on ne pourrait pas le changer en bouléens au lieu de "testis-specific" et "not_analysed" ?

Ca a été changé dans un dataset avant donc c'est bon

Dans CCLE_category, il n'y a que des activated, je suppose que ça a été utilisé pour la sélection mais est-ce utile de le garder ? Ce qui est bien c'est que activated est expliqué dans la documentation, ça explique donc les critères.

Il n'y a en effet que ça vu que c'est ce qu'on a choisi

Pour methylation_in_tissues je trouve que les valeurs sont vachement longues et pas très pratiques, est-ce qu'on ne devrait pas le réorganiser ?

On les a changé dans CT_mean_methylation_in_tissues donc c'est pareil ici

Pour regulation, il y a une valeur pour tous les gènes, or il est mis dans la documentation que ça a été déterminé avec les niveaux de methylation des promoteurs si disponibles, 258/306 gènes sont caractérisés dans methylation_in_tissues, est ce qu'on base alors regulation uniquement sur l'induction à la DAC pour les autres gènes ? Il manque comment ça a été déterminé dans la documentation en alliant les deux.

On a changé la colonne regulation en regulated_by_methylation et adapté comment les TRUE et FALSE sont donnés. J'ai complété

Pour la colonne strand, est-ce qu'on garde 1 et -1 ou on change en + et - ?

Tout est basé là dessus, on laisse

Veut-on garder les colonnes oncogene et tumor_suppressor ? D'autant plus que certains gènes ont été attribués aux deux.

C'est normal qu'il y ait les deux, c'est connu, on le garde cest une info en plus

Pour la colonne testis_specificity, on pourrait enlever Testis_ dans les valeurs

Ca choque pas, on laisse

Pour la colonne CpG_promoter, on pourrait enlever le CpG_ et ça pourrait être juste "high", "low", "intermediate"

Ca a été changé dans le jeu de données d'où ca venait donc c'est fait

X_linked pourrait être changée en bouléens

Fait !

DAC pourrait être changé en bouléens

Changé dans CT_list donc c'est fait

La colonne Chromosome_name pourrait juste s'appeler juste chromosome. Il faut aussi choisir si on veut passer en notation UCSC (chr1) ou garder NCBI (1).

On laisse comme ca pcq c'est comme ça que ça a été fait, mais on a changé le nom de la colonne