Closed slecrom closed 11 months ago
J'ai testé la différence, elle n'est franchement pas flagrante... De surcroit, certaines zones d'europe ne propose pas les machines optimisées pour le calcul (par exemple Paris...). Au final je me suis dit que ce n'était pas la peine, surtout avec le surcoût.
[x] Pour les régions ont les mets tous sur la région europe-west6 ? Dans les éditions précédentes, on avait du mal à leur faire démarrer toutes les VM dans la même zone. Je pense qu'il est plus prudent de distribuer leurs VM sur Paris, Zurich, Londre, Bruxelle, et peut-être de jouer sur les sous-zones a, b, c Il faudra organiser cela dans quelques jours quand ils déploieront leur instances "définitive". Je crois qu'il ne faudra pas se fier à la réussite du déploiement si ils le font "seuls" de façon asynchrone: ça peut passer, mais c'est le jour où ils allumeront tous ensemble leur VM que les problèmes risquent d'apparaitre.
[x] Dans le chapitre "https://artbio.github.io/startbio/AnalyseGenomes_2023/manage_VM/" peux-tu supprimer la partie "Reserve a fix IP address" ? C'est une source de problème de facturation potentielle je pense. Cela m'a pris pas mal de temps l'année dernière pour trouver comment supprimer la facturation liée à cette IP fixe. OK. Mais il faudra leur faire observer que même la suspension de la machine peut occasionner un changement d'IP externe.
[x] On avait parler l'année dernière de lancer l'installation de Galaxy et des outils dans des screen sur la VM pour éviter les problèmes de déconnexion du terminal SSH qui avait eu lieu. Qu'en penses-tu ?
J'ai trouvé que le screen rajoutait une couche pour la compréhension... et finalement quand le réseau a sauté, cela ne nous a pas beaucoup aidé. En plus, ma suggestion cette année est vraiment de leur faire déployer leur VM dans leur coin, et qu'ils marnent un peu. Donc, normalement, le fait d'isoler un shell de la coupure réseau n'est pas crucial pendant le TP à proprement parlé.
Au même endroit mais je l'ai renommé ag_tools.yml
. Je ne comprends pas où je suis allé pêcher ce nom de bg_tools.yml mais ça n'a pas vraiment de sens (si je me souviens "biologie des génomes", vraiment aucun sens ;-)
Clairement non ! Hier soir j'ai utilisé le script avant de faire la VM de secours (qu'il faudra que je refasse je sais). S'il ne m'avait pas rendu la main, je m'en serais rendu compte !
Oui ! c'est systemctl status galaxy*.service
, la première commande indiquée dans https://artbio.github.io/startbio/AnalyseGenomes_2023/manage_galaxy/
OK. Juste pour être 100% clear: ce sont des fichiers déposés dans ton compte PSILO ? Si c'est le cas, je ne peux pas tirer les nouveaux liens à ta place. Il faut que tu me les donnes
OK... Pas sûr de comprendre mais j'imagine que ça va apparaitre
Impatient de voir ça ! J'imagine que c'est sur ton compte Mississippi[2]
Ah les étourdis... Franchement, même moi, je laisse faire Galaxy maintenant. Il se plante moins que moi ! --> autodetect !
Ah très bien, ok. J'y pense: il est inutile de stocker ces données sur nos serveurs. Elles sont très bien et accessibles sur flybase.org
Install and Uninstall
c'est cela ?Je vais trouver...
@slecrom dans la liste ci-dessus, ce qui n'est pas coché c'est ce qui n'est pas complètement clair pour moi, ou que je n'ai pas encore fait. En particulier, tu parles d'un attachement mais je n'ai rien vu.
J'ai fait un onglet dédié aux VM dans le tableau partagé où j'ai réparti les étudiants par zone. J'ai ajouté Francfort qui est aussi en faible émission. De cette façon, on a un étudiant par zone.
Ok pour leur rappeler à l'oral. Peux-tu l'écrire aussi dans le tutoriel ? Merci.
La commande que tu proposes permet de tester si la VM s'est bien lancée. Est-ce qu'elle permet de voir aussi si les outils se sont bien installés ? On pourrait aussi leur demander de coller le résultat de la commande tail -f tools.log
? La commande de test de la VM est très bavarde sur ma console. J'ai essayé de la résumer avec grep mais sans grand succès. Est-ce que toutes les infos sont utiles ?
Je suis en train de terminer les tests du TP. Dès que je l'aurai fait, je te donnerai les liens vers les données à télécharger et la stratégie que je vais mettre en place.
Merci pour ton aide.
J'ai fait un onglet dédié aux VM dans le tableau partagé où j'ai réparti les étudiants par zone. J'ai ajouté Francfort qui est aussi en faible émission. De cette façon, on a un étudiant par zone.
attention, j'ai fait pareil dans le tuto https://artbio.github.io/startbio/AnalyseGenomes_2023/bare-galaxy-google/
Ok pour leur rappeler à l'oral. Peux-tu l'écrire aussi dans le tutoriel ? Merci. Oui je vais rajouter un warning
On pourrait aussi leur demander de coller le résultat de la commande tail -f tools.log ? Remarque que ce log s'affiche déjà tout seul pendant l'installation, il n'ont qu'à copier à l'issu de l'installation
La commande de test de la VM est très bavarde sur ma console. J'ai essayé de la résumer avec grep mais sans grand succès. Est-ce que toutes les infos sont utiles ?
Exhaustive, pas bavarde ! En tout cas moi, ça me permet de checker que tous les services sont OK !
Datasets
Tout ce qui pouvait être switché sur r6.54 l'a été cette nuit ;-) et effectivement je m'appuie désormais sur les url de flybase !
La commande me donne ça :
(.venv) root@bare-galaxy-1:~# systemctl start galaxy.target
(.venv) root@bare-galaxy-1:~# systemctl status galaxy-gunicorn.service
● galaxy-gunicorn.service - Galaxy gunicorn
Loaded: loaded (/etc/systemd/system/galaxy-gunicorn.service; disabled; vendor preset: enabled)
Active: active (running) since Tue 2023-11-21 08:50:23 UTC; 2min 15s ago
Main PID: 663 (gunicorn)
Tasks: 14 (limit: 38496)
Memory: 481.3M
CPU: 26.029s
CGroup: /system.slice/galaxy-gunicorn.service
├─ 663 /root/galaxy/.venv/bin/python /root/galaxy/.venv/bin/gunicorn galaxy.webapps.galaxy.fast_f>
└─5204 /root/galaxy/.venv/bin/python /root/galaxy/.venv/bin/gunicorn galaxy.webapps.galaxy.fast_f>
Nov 21 08:50:44 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:44,813 [pN:main.1,p:>
Nov 21 08:50:44 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:44,814 [pN:main.1,p:>
Nov 21 08:50:44 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:44,867 [pN:main.1,p:>
Nov 21 08:50:44 bare-galaxy-1 galaxyctl[5204]: galaxy.queue_worker INFO 2023-11-21 08:50:44,877 [pN:main.1,p:5>
Nov 21 08:50:44 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:44,878 [pN:main.1,p:>
Nov 21 08:50:45 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:45,347 [pN:main.1,p:>
Nov 21 08:50:45 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:45,349 [pN:main.1,p:>
Nov 21 08:50:45 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:45,852 [pN:main.1,p:>
Nov 21 08:50:45 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:45,854 [pN:main.1,p:>
Nov 21 08:50:46 bare-galaxy-1 galaxyctl[5204]: galaxy.tools.search DEBUG 2023-11-21 08:50:46,330 [pN:main.1,p:>
Si je tape systemctl status galaxy-gunicorn.service | grep -v "Nov"
je supprime toutes les dernières lignes. En as-tu besoin ?
je supprime toutes les dernières lignes. En as-tu besoin ?
Oui ! Quand il y a un problème, c'est là que ça se voit ! (et sur les deux autres service aussi !!)
Je viens de supprimer mon onglet. Je n'avais pas vu que tu l'avais fait aussi sur le tuto. Merci.
Bonjour @drosofff
Je viens de terminer le test du TP et tout fonctionne, je suis content 👍 et je te remercie pour ton aide. J'ai aussi testé le déploiement de la VM d'urgence et elle a très bien marché. Par contre, elle contient les données de l'année dernière.
À ce propos, j'ai mis à jour la documentation du TP et j'ai fait une page dédiée aux ressources où j'ai mis les liens prêts à être copier/coller dans le module upload de Galaxy. Attention, cette année les données sont plus grosses que l'année dernière. Les étudiants ne vont travailler que sous une sous partie des données (2 échantillons de chaque) à chaque fois. J'ai mis la répartition des échantillons par étudiants dans le Google Docs.
Comment veux-tu procéder pour la partie "Load training data" de ton tutoriel ? Est-ce que tu veux faire un renvoi vers la doc du TP ?
Dernière question. Dans ton tutoriel, pourrais-tu supprimer les deux parties de test d'alignement sur Bowtie ? J'ai peur qu'elle ne prenne du temps. Surtout que juste après le chargement des données tu refais un exemple sur la conversion de fichier qui prend beaucoup moins de temps, qui est beaucoup plus explicite et surtout qui permet d'introduire les workflow que je voudrais leur montrer, car on va les utiliser cette année.
Je te remercie Bon après-midi, Stéphane
Comment veux-tu procéder pour la partie ["Load training data"] (https://artbio.github.io/startbio/AnalyseGenomes_2023/Loading_data_in_galaxy/) de ton tutoriel ? Est-ce que tu veux faire un renvoi vers la doc du TP ?
Oui je vais faire un renvoi, mais comme j'ai déjà fait la liste pour les ressources de flybase et que c'est mieux d'éviter des aller-retour plantogènes entre doc (c'est petits chouchous, ils ont déjà tellement de mal à faire 1
copier/coller...) , je vais aussi mettre à jour mon tuto.
Tu utilise moins de ressources d'annotation de flybase que les années précédentes (dans ma liste, il y a les misc, les nuclears, etc). J'imagine que c'est "on purpose" @slecrom ? Si oui, je vais m'aligner sur ta liste bien sûr, pour les même raisons ;-)
Oui, pas de problème, je la passe en "sup data"...
Je mets à jour les références dans l'heure, et après je fait un rebluid de la VM de secours...
Bonjour @drosofff
Merci pour la mise à jour. Je viens de tester à nouveau la création de VM via le tuto. Tout fonctionne et j'ai bien récupéré la main après l'installation des outils. Je n'avais pas été assez patient la dernière fois.
Il faut juste s'assurer que les ordis des étudiants ne passent pas en veille car sinon cela coupe la connexion à la VM, cela ferme le terminal et arrête l'installation.
J'ai aussi testé la VM de secours et elle marche au top avec toutes les données. 👍
Il faut juste s'assurer que les ordis des étudiants ne passent pas en veille car sinon cela coupe la connexion à la VM, cela ferme le terminal et arrête l'installation.
@slecrom je vais rajouter un petit warning pour ça aussi.
Puisque tu en parles, et qu'il reste pile une semaine avant le démarrage du TP galaxy, est ce qu'on utiliserait pas cette semaine pour faire en sorte que tous les étudiants aient leur VM en état de marche prête à fonctionner Lundi prochain.
Pour être plus précis, s'assurer qu'ils sont allés jusqu'à l'installation des outils comprise ?
Je resterai près du Slack cette semaine, je peux les aider... AMHA, ils devraient faire cela pendant leur temps de travail personnel, à la maison ou ailleurs...
Je peux faire une annonce sur le Slack (d'ailleurs, il faut que je vérifie que tout le monde a passé le premier stade...)
@slecrom Je n'avais pas encore ouvert mon slack depuis l'update de mon MacOS ce week end... Je vois que tu avais lancé les festivités ;-)
Bonjour @drosofff
Merci pour la mise à jour du tutoriel STARTbio du cours analyse des génomes 2023. Je viens de le tester et il marche très bien. Pour info, le déploiement de la VM a pris 24' et l'installation des outils 25'
J'ai plusieurs questions suite à ce test :
[ ] Pour le TP, tu as choisi des machines E2, c'est le meilleur choix pour toi ? Pas besoin de prendre des machines optimisées pour le calcul ?
[ ] Pour les régions ont les mets tous sur la région europe-west6 ?
[ ] Dans le chapitre "https://artbio.github.io/startbio/AnalyseGenomes_2023/manage_VM/" peux-tu supprimer la partie "Reserve a fix IP address" ? C'est une source de problème de facturation potentielle je pense. Cela m'a pris pas mal de temps l'année dernière pour trouver comment supprimer la facturation liée à cette IP fixe.
[ ] On avait parler l'année dernière de lancer l'installation de Galaxy et des outils dans des screen sur la VM pour éviter les problèmes de déconnexion du terminal SSH qui avait eu lieu. Qu'en penses-tu ?
[ ] Peux-tu me dire où se trouve cette année la liste des outils installés ? L'année dernière, elle était à cette adresse : https://github.com/ARTbio/AnalyseGenome/blob/main/GalaxyServer/bg_tools.yml Mais cette année la page n'existe plus.
[ ] Est-ce que c'est normal qu'à la fin de l'installation des outils, on ne reprenne pas la main sur le terminal ?
[ ] Est-ce que l'on pourrait leur demander de copier/coller une commande depuis le terminal pour s'assurer que leur server Galaxy tourne bien comme prévu après l'installation des outils et que rien n'a planté ? Un peu comme on l'a fait avec les VM.
[ ] Dans la partie "Load training data" les données ont changé. Le lien dans la phrase "All these data have been deposited in the storage server Psilo at Sorbonne-Université." https://psilo.sorbonne-universite.fr/index.php/s/yHSoKGZKMeJkeXa n'est plus valable. Par contre, j'ai créé de nouveaux répertoires, mais séparés en fonction du type de données. Je te propose de retirer ton lien, les nouveaux seront indiqués en dessous.
[ ] D'ailleurs cette année, je pense ne leur faire charger qu'une partie des données, car l'alignement du RNAseq a pris pas mal de temps sur Mississippi. Il faut que je vérifie les performances sur la VM. Je te mets le fichier de dataset complet en pièce jointe.
[ ] Pour le chargement des données, peux-tu mettre un gros warning en leur demandant d'être vigilant et de ne pas sélectionner le type "fastqcsanger.gz" mais bien "fastqsanger.gz". Les deux étant très ressemblants. Ils sont plusieurs à avoir fait l'erreur l'année dernière.
[ ] Cette année, on va travailler sur la dernière version r6.54 à la place de la r6.18
[ ] Dans la partie "https://artbio.github.io/startbio/AnalyseGenomes_2023/Preparing_reference/#a-simplify-fasta-headers" il n'y a plus dans la barre de gauche l'élément "Install new tools" que tu mentionnes dans ton tutoriel
Je te remercie Stéphane