Voir si INSA possible d'avoir des gpu

Rob174 commented 3 years ago

Besoin de WSL pour se connecter ?

Rob174 commented 3 years ago

@Rob174 : Avant les vacances tenter de régler cette issue

Rob174 commented 3 years ago

En attente de l'accès au diapo

Rob174 commented 3 years ago

Mail envoyé à Mr José Martin et Mr Emmanuel Lombard :

Bonsoir Messieurs,

Nous sommes un des groupes d'étudiants de l'enseignement Projet d'Initiation à la Recherche de 4e année travaillant sur le projet de véhicules autonomes.

Nous vous contactons sur les conseils de Monsieur Hladik.

Pour notre projet, nous allons entrainer des intelligences artificielles à l'aide de bases de données trop conséquentes pour nos ordinateurs personnels.

Serait-il possible avec l'INSA d'avoir accès à des serveurs distants, éventuellement accessibles en ssh, pour stocker nos bases de données et entrainer nos intelligences artificielles à l'aide de cartes graphiques ?

Nous vous remercions d'avance du temps que vous pourrez accorder à notre demande.

Cordialement

Robin Moine

4IR - Groupe Conduite Autonome

Rob174 commented 3 years ago

Réponse de Mr Di Mercurio : Bonjour,

je vais m'occuper de votre demande. Mr Martin s'occupe des aspects électronique, moi de l'informatique.

Quel volume / taille de base de donnée envisagez vous ? Est-ce qu'il faut pouvoir mettre une carte GPGPU dans la machine ou est-ce juste pour stocker un base de donnée ?

Pour info, les deux serveurs srv-gei-gpu1 et srv-gei-gpu2 sont équipés de 4 cartes quadro P4000 chacun, avec un espace de 16T situé dans /scratch, partagé par les utilisateurs.

Seb

Rob174 commented 3 years ago

@Pierre-Emmanuel Hladik Bonjour Monsieur Nous avons contacté les référents informatique que vous nous aviez indiqués pour demander du stockage et des cartes graphiques pour entraîner nos modèles. Si j'ai bien compris, Mr Di Mercurio m'a indiqué qu'il y a 8 GPU et 16To disponibles pour tout le monde. Etant donné ces ressources limitées, quelle quantité d'IAs devront nous tester ? En effet, nous hésitons à demander plus d'une carte graphique compte tenu du nombre de groupes de PIR ce qui limitera le nombre d'entrainements que nous pourrons réaliser en parallèle Nous vous contactons donc pour mieux adapter notre demande

Robin MoineAujourd’hui à 18:49 De ce que nous avons compris ce sont des ressources partagées (pour tout le monde). Nous avions en tête de demander environ 400 go de stockage et 1 gpu mais nous risquons d'avoir des problèmes pour entrainer des modèles en parallèle. C'est pourquoi nous voulions vous demander les attentes en terme de quantité de modèles à tester pour savoir si concrètement nous demandons plus de gpus. Au niveau du rapport par exemple, quel quantité de tests attendez-vous ?

Pierre-Emmanuel HladikAujourd’hui à 22:59 Je ne pense pas que les serveurs avec le GPU seront beaucoup utilisés au second semestre (a priori ils sont surtout utilisés au premier semestre en 5SDBD et 5SIEC). Il y a 4 GPU quadro P4000 par serveur et ce sont des bêtes de course. Sinon il y a des PC dans les salles de TP (109, 111 et 105) avec des GPU qui sont aussi très corrects. Peut-être qu'il faudrait faire un test sur une des machines pour voir si ça passe et quelle quantité de ressource ça nécessite. On peut aussi facilement installer de nouveau logiciels si besoin (il y a déjà TensorFlow d'installé).

Robin MoineAujourd’hui à 23:06 D'accord, le mail de Mr Di Mercurio m'avait mis le doute sur le fonctionnement du système car il me demandait s'il fallait pouvoir "mettre une carte GPU dans la machine" (serveur du GEI). Donc si je comprends bien les GPU sont sur les serveurs et suivant les besoins on pourra avoir accès à plus ou moins de GPU (avec en plus potentiellement les GPU des salles de TP) D'ailleurs, si les machines de TP du GEI ont des cartes graphiques performantes, savez-vous s'il est possible d'y accéder en ssh (en effet, si un entrainement se finit quand nous ne sommes pas sur l'INSA cela nous permettrait potentiellement d'en lancer un nouveau à distance)

Rob174 commented 3 years ago

Après avoir été voir Mr Di Mercurio dans son bureau :

va envoyer un msg au CSN pour dire pas besoin de BDD
accès ssh avec comptes insa (+ éventuellement vpn si à l'extérieur)
GPU pas utilisées en ce moment (checker de temps en temps quand même) donc à priori on peut charger les GPUs
espace 12-16To commun mais stockage avec droits par session -> une personne devra charger les données depuis son compte et mettre les droits pour tout le monde

Rob174 commented 3 years ago

Accès temporaire dispo (mais on ne peut pas stocker encore les bdds) :

Se connecter au VPN
dans un terminal : ssh loginINSA@srv-gei-gpu1.insa-toulouse.fr (on pourra potentiellement utiliser -X pour afficher des GUI)

Rob174 commented 3 years ago

Pb supposé : tensorflow ne reconnait pas les GPUs Code de test :

import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU'))) # d'après la documentation de tensorflow : https://www.tensorflow.org/guide/gpu

tf.debugging.set_log_device_placement(True)
from tensorflow.keras.layers import Input,Conv2D
i = Input(shape=(50,50,3))
c = Conv2D(3,2)(i)
# Affiche les logs de placement sur CPU actuellement contre GPU normalement

Rob174 commented 3 years ago

Mail envoyé à Mr Hladik pour savoir si c'est normal avec les manips que j'ai réalisées

Rob174 commented 3 years ago

python3 -c 'import tensorflow as tf; print(tf.version)' # for Python 3 Tensorflow 2.2.0

Rob174 commented 3 years ago

Donc requis : à priori au moins CuDNN 7.6 ; CUDA 10.1 python 3.5-3.8 https://www.tensorflow.org/install/source#gpu

Rob174 commented 3 years ago

Version de CUDA installée : CUDA Version 10.2.89 Version du CuDNN installée : fichier non trouvé (grep CUDNN_MAJOR -A 2 /usr/local/cuda/include/cudnn.h) https://stackoverflow.com/questions/50622525/which-tensorflow-and-cuda-version-combinations-are-compatible

Rob174 commented 3 years ago

à priori manque tensorflow-gpu

Rob174 commented 3 years ago

Tout bon cf #19

Rob174 / PIR

Voir si INSA possible d'avoir des gpu #3