IFB-ElixirFr / EMERGEN-workflows

0 stars 0 forks source link

Version worfkflow #16

Open lecorguille opened 3 years ago

lecorguille commented 3 years ago

@drosofff, est-ce que les workflows sont en quelque versionné ? Comment savoir si nous ne les avons déjà pas https://usegalaxy.fr/workflows/list_published ?

drosofff commented 3 years ago

Alors, oui, les workflows sont maintenant versionnés. Mais malheureusement cela ne te garantie pas que deux workflows assemblés par deux personnes différentes ne sont pas finalement identiques. Cela dit, cela ouvre un question intéressante et une opportunité de script dans ephemeris. par exemple tu peux extraire la séquence des outils d'un workflow et comparer les deux séquences d'outils. après, ma foi, c'est presque de la biologie c'est comme si tu comparais deux séquences peptidiques ;-)

Plus pragmatique, je pense qu'il faut visualiser les workflows dans l'éditeur. On en a pas 4000 à examiner et comme les workflows ont des noms, je suis assez tranquille. By the way, j'ai extrait les outils des workflows de https://github.com/IFB-ElixirFr/EMERGEN-workflows/tree/main/Galaxy-workflows/galaxyproject/SARS-CoV-2. ça fait une nouvelle liste yaml à incorporer potentiellement dans usegalaxy.fr (aka ugfr ? c'est une proposition)

lecorguille commented 3 years ago

Versionné sous git mais je pensais plus à des numéros dans leurs noms ou une date. Comparer 2 versions d'un workflow signifie comparer chaque version d'outil et chaque paramètre

lecorguille commented 3 years ago

Ici, ils ont des numéros de version : https://workflowhub.eu/search?utf8=%E2%9C%93&q=covid#workflows

lecorguille commented 3 years ago

A priori, des exports automatique de https://github.com/galaxyproject/iwc/tree/main/workflows/sars-cov-2-variant-calling vers workflowhub.eu

drosofff commented 3 years ago

Oui c'est le projet iwc de Marius and Co, il a fait une présentation il y a quelques semaines. Je ne savais pas qu'ils le connectaient à workflowhub, mais c'est logique

Je pensais que ton soucis était autre, et le mien en réalité: si tu te limites au workflows de w meier, pas de soucis, son versioning assure que tu sais de quel workflow de w meier (ou de l'iwc) tu parles.

mais il y a pas mal de workflows "concurrents" qui circulent dans la communauté Galaxy. Certains ont l'air de faire la même chose, avec des variations. et the question c'est d'évaluer rapidement ces workflows.

2 workflows peuvent faire exactement la même chose et avoir des noms et auteurs différents, ou faire presque la même chose mais l'un en mieux... Et là tu n'a pas vraiment de solution simples type checksum ou mulled-env etc...

Finalement, c'est un peu le même problème avec les outils galaxy, (ou avec les mottes de beurre): pour comparer le produit, on peut juste se fier à la marque, mais c'est plus satisfaisant de gouter ou au moins d'avoir la composition détaillée...

Encore une fois, il faut être pragmatique: le système de w meier et d'anton and co fonctionne on peut faire tout comme eux (comme dirait Bjorn, sauf si on a trop de temps ;-). Je n'avais pas catché le coup du dépot dans le workflowhub, merci, j'achète !

Mais, j'ai au moins un cas ou il faut développer la réponse nous même: les séquençage IonTorrent PGM (https://gitter.im/usegalaxy-eu/covid19?at=60b7af3a45c2185a5e040131), et je serais surpris qu'il ne faille pas adapter un peu les workflows qu'on "empreinte" à notre environnement de production

jvanheld commented 3 years ago

Mais malheureusement cela ne te garantie pas que deux workflows assemblés par deux personnes différentes ne sont pas finalement identiques. Cela dit, cela ouvre un question intéressante et une opportunité de script dans ephemeris. par exemple tu peux extraire la séquence des outils d'un workflow et comparer les deux séquences d'outils. après, ma foi, c'est presque de la biologie c'est comme si tu comparais deux séquences peptidiques ;-)

Plus formellement, il s'agirait de comparaison de graphes, puisqu'un workflow peut être branché. Sans blague, il serait sans doute assez facile de convertir les workflows en graphes avec un noeud pour chaque outil, puis de faire une comparaison. Si on s'y prend bien, on pourrait même faire du clustering de workflows pour identifier non seulement ceux qui sont identiques mais aussi identifier des groupes de workflows fortement similaires .Est-ce que cela présenterait un intérêt pragmatique, par exemple pour identifier des redondances ?

yvanlebras commented 3 years ago

Assez d'accord avec Jacques, c'est quelque-chose qui avait été initié par mouamadou Ba quand il était irisa Rennes..

drosofff commented 3 years ago

Oui d'accord aussi avec @jvanheld je trouve ça intéressant comme question. C'est vrai que ma métaphore de la sequence peptidique ne fonctionne pas (encore qu'on peut avoir une séquence secondaire, tertiaire et même quaternaire pour des complexes multiprotéiques) et que les graphs paraissent plus proches de la question. Mais si j'y réfléchis avec mon problème en tête je me dis qu'on se fait peut être des noeuds dans la tête pour rien:

en réalité ce que je cherche c'est les workflows qui prennent en entrée un type de données (genre au hasard des bam générés par un IonTorrent GPM) et qui crachent un autre type de donnée en sortie, genre toujours au hasard des variants covid19 ;-). Je te dirais que si je trouve ce schéma, je me fous un peu de ce qui s'est passé entre les deux - dans un premier temps. J'imagine aisément que le graph pour parcourir ce changement d'état de la donnée peut varier du tout au tout, l'important c'est d'abord le résultat. On peut voir un workflow comme une fonction d'état. Ensuite, pour la mise en production, c'est autre chose et oui la forme du workflow va compter. d'ailleurs le travail W n'est pas une fonction d'état !!

J'aurais donc tendance à proposer une approche basée sur "la variation d'entropie" associée à un workflow. Pour le moment c'est purement métaphorique.... d'ailleurs il faut que je lint des codes R et j'y retourne :-(

jvanheld commented 3 years ago

Salut @drosofff

En suivant ta suggestion, en première approche on pourrait simplifier le problème en considérant chaque workflow comme un ensemble d'outils, sans se préoccuper de leurs interconnexions. Sur cette base, on pourrait également identifier des identités et similarités entre ensembles, et faire du clustering (voire des arbres phylogénétiques de workflows).

Bonne nuit

yvanlebras commented 3 years ago

Bonjour à tous, Oui, le travail que j'ai en tête avait pour but de faire des arbres de décision (si pertinent car je ne sais pas si dans le cas présent, guider les gens/automates étapes après étape est interessant) à partir de clustering de workflows... On a jamais pu aller jusqu'au bout d'un poc sur le sujet mais je serais intéressé le cas échéant de pouvoir participer. Bonne fin de semaine à tous, ce matin première formation Galaxy-E de l'année, il était temps ;)

d-salgado commented 3 years ago

Salut Christophe, Je viens de tomber sur ce papier, qui décrit un pipeline générique pour les données SARS-CoV-2 (illumina, Torrent, Nanopore). Peut être que tu peux avoir accès au pipeline Galaxy. Voici le lien vers le papier https://www.biorxiv.org/content/10.1101/2021.01.16.425365v2.full.pdf.

David

————

David Salgado, PhD Bioinformatics Research Engineer Marseille Medical Genetics Bioinformatics platform manager

Aix-Marseille University - INSERM U1251 Genetics and Bioinformatics Group Christophe Béroud Team Faculté de Médecine La Timone 27, Boulevard Jean Moulin 13385 Marseille cedex 5

Phone: +33 (0)491 324 884 Email : @.**@.>

On 3 Jun 2021, at 23:47, Christophe Antoniewski @.**@.>> wrote:

Oui d'accord aussi avec @jvanheldhttps://github.com/jvanheld je trouve ça intéressant comme question. C'est vrai que ma métaphore de la sequence peptidique ne fonctionne pas (encore qu'on peut avoir une séquence secondaire, tertiaire et même quaternaire pour des complexes multiprotéiques) et que les graphs paraissent plus proches de la question. Mais si j'y réfléchis avec mon problème en tête je me dis qu'on se fait peut être des noeuds dans la tête pour rien:

en réalité ce que je cherche c'est les workflows qui prennent en entrée un type de données (genre au hasard des bam générés par un IonTorrent GPM) et qui crachent un autre type de donnée en sortie, genre toujours au hasard des variants covid19 ;-). Je te dirais que si je trouve ce schéma, je me fous un peu de ce qui s'est passé entre les deux - dans un premier temps. J'imagine aisément que le graph pour parcourir ce changement d'état de la donnée peut varier du tout au tout, l'important c'est d'abord le résultat. On peut voir un workflow comme une fonction d'état. Ensuite, pour la mise en production, c'est autre chose et oui la forme du workflow va compter. d'ailleurs le travail W n'est pas une fonction d'état !!

J'aurais donc tendance à proposer une approche basée sur "la variation d'entropie" associée à un workflow. Pour le moment c'est purement métaphorique.... d'ailleurs il faut que je lint des codes R et j'y retourne :-(

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHubhttps://github.com/IFB-ElixirFr/EMERGEN-workflows/issues/16#issuecomment-854202923, or unsubscribehttps://github.com/notifications/unsubscribe-auth/ACEEPA4MHMK4FEXLWH2WMXDTQ72A5ANCNFSM4546NYCQ.

drosofff commented 3 years ago

Merci David,

Malheureusement le premier outil du workflow ( https://aries.iss.it/root?tool_id=sarscov2genomes) est "maison" et non accessible.... J'imagine "available on request...". Mais quand tu regardes le workflow tu comprends que ce n'est pas grave: de toute façon, c'est précisément cette étape qu'il faudra customiser pour Emergen-workflow.

Je le rajoute de dossier workflow !

Chris

Christophe Antoniewski

Plateforme de bioinformatique ARTbio http://artbio.fr/ Institut de Biologie Paris Seine http://www.ibps.upmc.fr/en | Sorbonne-Université Bâtiment B, 7e étage, porte 725 9, Quai St Bernard, - Case Courrier 25 75252 Paris Cedex 05

Tel +33 1 44 2 7 70 05Mobile +33 6 68 60 51 50

Pour accéder à la PlateformeBâtiment B, 7e étage, Porte 725 https://www.google.com/maps/d/u/0/edit?mid=zmZz-3Vin5D0.kjRSV6vitXE8

https://twitter.com/ARTbio_IBPS

Beati gli ultimi, se i primi sono onesti

Le ven. 4 juin 2021 à 09:17, d-salgado @.***> a écrit :

Salut Christophe, Je viens de tomber sur ce papier, qui décrit un pipeline générique pour les données SARS-CoV-2 (illumina, Torrent, Nanopore). Peut être que tu peux avoir accès au pipeline Galaxy. Voici le lien vers le papier https://www.biorxiv.org/content/10.1101/2021.01.16.425365v2.full.pdf.

David

————

David Salgado, PhD Bioinformatics Research Engineer Marseille Medical Genetics Bioinformatics platform manager

Aix-Marseille University - INSERM U1251 Genetics and Bioinformatics Group Christophe Béroud Team Faculté de Médecine La Timone 27, Boulevard Jean Moulin 13385 Marseille cedex 5

Phone: +33 (0)491 324 884 Email : @.**@.>

On 3 Jun 2021, at 23:47, Christophe Antoniewski @.**@.>> wrote:

Oui d'accord aussi avec @jvanheldhttps://github.com/jvanheld je trouve ça intéressant comme question. C'est vrai que ma métaphore de la sequence peptidique ne fonctionne pas (encore qu'on peut avoir une séquence secondaire, tertiaire et même quaternaire pour des complexes multiprotéiques) et que les graphs paraissent plus proches de la question. Mais si j'y réfléchis avec mon problème en tête je me dis qu'on se fait peut être des noeuds dans la tête pour rien:

en réalité ce que je cherche c'est les workflows qui prennent en entrée un type de données (genre au hasard des bam générés par un IonTorrent GPM) et qui crachent un autre type de donnée en sortie, genre toujours au hasard des variants covid19 ;-). Je te dirais que si je trouve ce schéma, je me fous un peu de ce qui s'est passé entre les deux - dans un premier temps. J'imagine aisément que le graph pour parcourir ce changement d'état de la donnée peut varier du tout au tout, l'important c'est d'abord le résultat. On peut voir un workflow comme une fonction d'état. Ensuite, pour la mise en production, c'est autre chose et oui la forme du workflow va compter. d'ailleurs le travail W n'est pas une fonction d'état !!

J'aurais donc tendance à proposer une approche basée sur "la variation d'entropie" associée à un workflow. Pour le moment c'est purement métaphorique.... d'ailleurs il faut que je lint des codes R et j'y retourne :-(

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub< https://github.com/IFB-ElixirFr/EMERGEN-workflows/issues/16#issuecomment-854202923>, or unsubscribe< https://github.com/notifications/unsubscribe-auth/ACEEPA4MHMK4FEXLWH2WMXDTQ72A5ANCNFSM4546NYCQ>.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/IFB-ElixirFr/EMERGEN-workflows/issues/16#issuecomment-854426360, or unsubscribe https://github.com/notifications/unsubscribe-auth/ACZJ2GJ5GIJYM5SJDNQO2WLTRB4YLANCNFSM4546NYCQ .