Closed JulieDevis closed 1 year ago
Pour
percent_pos_tum
etpercent_neg_tum
, comme ils sont bas, est ce que ça ne vaudrait pas la peine de mentionner dans la documentation pourquoi ça nous intéresse ?
C'est pas à nous d'expliquer ça
Dans la documentation, pour la colonne
TCGA_category
, il n'y a pas d'explication de ce que représente la valeur "multimapping_issue" alors qu'il y a pour l'autre valeur.
C'est ajouté
Dans la documentation, le promoteur est mentionné pour plusieurs colonnes, est-ce qu'il ne faudrait pas le définir selon les TSS+ et TSS- qui ont été choisis ? On pourrait ajouter une colonne prom_start et prom_end selon nous qui serait alors les coordonnées que l'on a utilisées ?
Ajouté à la docu que lorsqu'on parle de prom c'est 1000 upstream du TSS et 200 downstream du TSS
Je ne vois pas trop l'intérêt de la colonne
q75_TPM_somatic
dans ce jeu de données ci
Elle a été retirée du jeu de données d'où elle venait donc elle a disparu
Pour la colonne
multimapping_analysis
est-ce qu'on ne pourrait pas le changer en bouléens au lieu de "testis-specific" et "not_analysed" ?
Ca a été changé dans un dataset avant donc c'est bon
Dans
CCLE_category
, il n'y a que des activated, je suppose que ça a été utilisé pour la sélection mais est-ce utile de le garder ? Ce qui est bien c'est que activated est expliqué dans la documentation, ça explique donc les critères.
Il n'y a en effet que ça vu que c'est ce qu'on a choisi
Pour
methylation_in_tissues
je trouve que les valeurs sont vachement longues et pas très pratiques, est-ce qu'on ne devrait pas le réorganiser ?
On les a changé dans CT_mean_methylation_in_tissues donc c'est pareil ici
Pour
regulation
, il y a une valeur pour tous les gènes, or il est mis dans la documentation que ça a été déterminé avec les niveaux de methylation des promoteurs si disponibles, 258/306 gènes sont caractérisés dansmethylation_in_tissues
, est ce qu'on base alorsregulation
uniquement sur l'induction à la DAC pour les autres gènes ? Il manque comment ça a été déterminé dans la documentation en alliant les deux.
On a changé la colonne regulation
en regulated_by_methylation
et adapté comment les TRUE et FALSE sont donnés. J'ai complété
Pour la colonne
strand
, est-ce qu'on garde 1 et -1 ou on change en + et - ?
Tout est basé là dessus, on laisse
Veut-on garder les colonnes
oncogene
ettumor_suppressor
? D'autant plus que certains gènes ont été attribués aux deux.
C'est normal qu'il y ait les deux, c'est connu, on le garde cest une info en plus
Pour la colonne
testis_specificity
, on pourrait enlever Testis_ dans les valeurs
Ca choque pas, on laisse
Pour la colonne
CpG_promoter
, on pourrait enlever le CpG_ et ça pourrait être juste "high", "low", "intermediate"
Ca a été changé dans le jeu de données d'où ca venait donc c'est fait
X_linked
pourrait être changée en bouléens
Fait !
DAC
pourrait être changé en bouléens
Changé dans CT_list donc c'est fait
La colonne
Chromosome_name
pourrait juste s'appeler justechromosome
. Il faut aussi choisir si on veut passer en notation UCSC (chr1) ou garder NCBI (1).
On laisse comme ca pcq c'est comme ça que ça a été fait, mais on a changé le nom de la colonne
Correction de la documentation faite : très très bien décrite avec une description pour chaque colonne (ce qu'il n'y a pas toujours dans les autres jeux de données) Relecture du script faite
Si on veut changer certaines choses ici, il faut parfois aller plus haut dans CT_list, c'est pour ca que je n'ai pas mis de lien car il ne s'agit pas du script correspondant.
A discuter
[x] Pour
percent_pos_tum
etpercent_neg_tum
, comme ils sont bas, est ce que ça ne vaudrait pas la peine de mentionner dans la documentation pourquoi ça nous intéresse ? https://github.com/UCLouvain-CBIO/CTexploreR/blob/bf58aa784e43bdf9c2abfdb409d5986bbed8da9a/R/data.R#L251-L254[x] Dans la documentation, pour la colonne
TCGA_category
, il n'y a pas d'explication de ce que représente la valeur "multimapping_issue" alors qu'il y a pour l'autre valeur. https://github.com/UCLouvain-CBIO/CTexploreR/blob/bf58aa784e43bdf9c2abfdb409d5986bbed8da9a/R/data.R#L257-L259[x] Dans la documentation, le promoteur est mentionné pour plusieurs colonnes, est-ce qu'il ne faudrait pas le définir selon les TSS+ et TSS- qui ont été choisis ? On pourrait ajouter une colonne prom_start et prom_end selon nous qui serait alors les coordonnées que l'on a utilisées ?
[x] Je ne vois pas trop l'intérêt de la colonne
q75_TPM_somatic
dans ce jeu de données ci[x] Pour la colonne
multimapping_analysis
est-ce qu'on ne pourrait pas le changer en bouléens au lieu de "testis-specific" et "not_analysed" ?[x] Dans
CCLE_category
, il n'y a que des activated, je suppose que ça a été utilisé pour la sélection mais est-ce utile de le garder ? Ce qui est bien c'est que activated est expliqué dans la documentation, ça explique donc les critères.[x] Pour
methylation_in_tissues
je trouve que les valeurs sont vachement longues et pas très pratiques, est-ce qu'on ne devrait pas le réorganiser ?[x] Pour
regulation
, il y a une valeur pour tous les gènes, or il est mis dans la documentation que ça a été déterminé avec les niveaux de methylation des promoteurs si disponibles, 258/306 gènes sont caractérisés dansmethylation_in_tissues
, est ce qu'on base alorsregulation
uniquement sur l'induction à la DAC pour les autres gènes ? Il manque comment ça a été déterminé dans la documentation en alliant les deux.[x] Pour la colonne
strand
, est-ce qu'on garde 1 et -1 ou on change en + et - ?[x] Veut-on garder les colonnes
oncogene
ettumor_suppressor
? D'autant plus que certains gènes ont été attribués aux deux.[x] Pour la colonne
testis_specificity
, on pourrait enlever Testis_ dans les valeurs[x] Pour la colonne
CpG_promoter
, on pourrait enlever le CpG_ et ça pourrait être juste "high", "low", "intermediate"[x]
X_linked
pourrait être changée en bouléens[x]
DAC
pourrait être changé en bouléens[x] La colonne
Chromosome_name
pourrait juste s'appeler justechromosome
. Il faut aussi choisir si on veut passer en notation UCSC (chr1) ou garder NCBI (1).