CharlesJB / ENCODExplorer

5 stars 4 forks source link

Consensus #49

Closed ericfournier2 closed 5 years ago

ericfournier2 commented 5 years ago

Salut,

tu peux regarder la nouvelle section de la vignette pour voir l'interface. Tu vas avoir besoin de la version la plus à jour de GenomicOperations (https://github.com/ArnaudDroitLab/GenomicOperations)

Merci!

CharlesJB commented 5 years ago

Je vais regarder ça.

Si je me souviens bien, GenomicOperations ne sera pas sur Bioconductor? Je crois que tu m'avais dit qu'on allait déplacer tout le code pertinent dans ENCODExplorer pour le moment, non?

ericfournier2 commented 5 years ago

Oui, ça va être une des choses à faire avant de pousser vers Bioconductor. Mais pour le moment ça dépend encore du package sur ArnaudDroitLab.

CharlesJB commented 5 years ago

Dans la section Obtaining consensus peaks from ChIP-Seq de la vignette, je crois qu'il serait bien d'ajouter un petit paragraphe qui donne une définition plus formelle d'un consensus. Ça aiderait entre autre à mieux comprendre le paramètre consensus_threshold mentionné la ligne 364.

CharlesJB commented 5 years ago

Il y a beaucoup de téléchargement avec la vignette, j'imagine que la première fois qu'il va y avoir le build, sur Bioconductor, ça va peut-être donner une erreur pour le temps utilisé.

CharlesJB commented 5 years ago

Pour la partie RNA-Seq, on voit que metric_data(res) nous retourne une table ayant 7 colonnes:

> colnames(metric_data(res))
[1] "id"
[2] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 15.5 day mouse neural tube;NA;NA;NA;NA;NA"
[3] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 13.5 day mouse neural tube;NA;NA;NA;NA;NA"
[4] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 11.5 day (e11.5) mouse neural tube;NA;NA;NA;NA;NA"
[5] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 12.5 day mouse neural tube;NA;NA;NA;NA;NA"
[6] "PolyA RNA-Seq from oligo-dT primed Total RNA on postnatal 0 day mouse neural tube;NA;NA;NA;NA;NA"
[7] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 14.5 day mouse neural tube;NA;NA;NA;NA;NA"

Lorsqu'on regarde les raw_data, on voit que la colonne 2 contient en fait les valeurs provenant de 2 fichiers bruts:

> names(raw_data(res))
[1] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 15.5 day mouse neural tube;NA;NA;NA;NA;NA"
[2] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 13.5 day mouse neural tube;NA;NA;NA;NA;NA"
[3] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 11.5 day (e11.5) mouse neural tube;NA;NA;NA;NA;NA"
[4] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 12.5 day mouse neural tube;NA;NA;NA;NA;NA"
[5] "PolyA RNA-Seq from oligo-dT primed Total RNA on postnatal 0 day mouse neural tube;NA;NA;NA;NA;NA"
[6] "PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 14.5 day mouse neural tube;NA;NA;NA;NA;NA"
> names(raw_data(res)[[1]])
[1] "ENCFF365DLM" "ENCFF037GWJ"

Est-ce que c'est la moyenne des valeurs des 2 fichiers de raw_data qu'on retrouve dans metric_data(res)?

CharlesJB commented 5 years ago

Encore pour le RNA-Seq, je n'arrive pas à reproduire les résultats obtenus avec use_interactive = FALSE lorsque je met la valeur à TRUE:

> res2 = queryGeneExpression("neural tube", use_interactive = TRUE)
Results : 24 files, 12 datasets
Only mm10 was found. Selecting it.
Multiple values for assay found. Which one should we use?

1: microRNA-seq (12 files)
2: polyA RNA-seq (12 files)

Selection: 2
Multiple values for dataset_description found. Which one should we use?

1: PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 11.5 day (e11.5) mouse neural tube (2 files)
2: PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 12.5 day mouse neural tube (2 files)
3: PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 13.5 day mouse neural tube (2 files)
4: PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 14.5 day mouse neural tube (2 files)
5: PolyA RNA-Seq from oligo-dT primed Total RNA on embryonic 15.5 day mouse neural tube (2 files)
6: PolyA RNA-Seq from oligo-dT primed Total RNA on postnatal 0 day mouse neural tube (2 files)

Selection: 1
[1] "Success downloading file : ./ENCFF298WHK.tsv"
[1] "Success downloading file : ./ENCFF375JDR.tsv"
[1] "Files can be found at /Users/charles/git-clones/ENCODExplorer"

Je dois absolument choisir un des 6 jeux de données alors que les 6 sont téléchargés lorsque use_interactive = FALSE.

ericfournier2 commented 5 years ago

Oui, c'est la moyenne des valeurs de la "condition". Dans buildExpressionMean, c'est possible de passer une autre fonction pour "summarizer" les colonnes (median, etc.)

ericfournier2 commented 5 years ago

Je pense avoir adressé tous les points. Ça passe CHECK et BiocCheck sans warning ni erreur. Je pense que c'est prêt à être poussé vers devel.

CharlesJB commented 5 years ago

C'est pusher sur Bioconductor. On devrait voir les résultats du build demain si tout va bien.

ericfournier2 commented 5 years ago

Ça va planter, ça plante toujours quand on pousse sur Bioconductor. =P

Merci!