Closed Rob174 closed 3 years ago
@Rob174 : Avant les vacances tenter de régler cette issue
En attente de l'accès au diapo
Mail envoyé à Mr José Martin et Mr Emmanuel Lombard :
Bonsoir Messieurs,
Nous sommes un des groupes d'étudiants de l'enseignement Projet d'Initiation à la Recherche de 4e année travaillant sur le projet de véhicules autonomes.
Nous vous contactons sur les conseils de Monsieur Hladik.
Pour notre projet, nous allons entrainer des intelligences artificielles à l'aide de bases de données trop conséquentes pour nos ordinateurs personnels.
Serait-il possible avec l'INSA d'avoir accès à des serveurs distants, éventuellement accessibles en ssh, pour stocker nos bases de données et entrainer nos intelligences artificielles à l'aide de cartes graphiques ?
Nous vous remercions d'avance du temps que vous pourrez accorder à notre demande.
Cordialement
Robin Moine
4IR - Groupe Conduite Autonome
Réponse de Mr Di Mercurio : Bonjour,
je vais m'occuper de votre demande. Mr Martin s'occupe des aspects électronique, moi de l'informatique.
Quel volume / taille de base de donnée envisagez vous ? Est-ce qu'il faut pouvoir mettre une carte GPGPU dans la machine ou est-ce juste pour stocker un base de donnée ?
Pour info, les deux serveurs srv-gei-gpu1 et srv-gei-gpu2 sont équipés de 4 cartes quadro P4000 chacun, avec un espace de 16T situé dans /scratch, partagé par les utilisateurs.
Seb
@Pierre-Emmanuel Hladik Bonjour Monsieur Nous avons contacté les référents informatique que vous nous aviez indiqués pour demander du stockage et des cartes graphiques pour entraîner nos modèles. Si j'ai bien compris, Mr Di Mercurio m'a indiqué qu'il y a 8 GPU et 16To disponibles pour tout le monde. Etant donné ces ressources limitées, quelle quantité d'IAs devront nous tester ? En effet, nous hésitons à demander plus d'une carte graphique compte tenu du nombre de groupes de PIR ce qui limitera le nombre d'entrainements que nous pourrons réaliser en parallèle Nous vous contactons donc pour mieux adapter notre demande
Robin MoineAujourd’hui à 18:49 De ce que nous avons compris ce sont des ressources partagées (pour tout le monde). Nous avions en tête de demander environ 400 go de stockage et 1 gpu mais nous risquons d'avoir des problèmes pour entrainer des modèles en parallèle. C'est pourquoi nous voulions vous demander les attentes en terme de quantité de modèles à tester pour savoir si concrètement nous demandons plus de gpus. Au niveau du rapport par exemple, quel quantité de tests attendez-vous ?
Pierre-Emmanuel HladikAujourd’hui à 22:59 Je ne pense pas que les serveurs avec le GPU seront beaucoup utilisés au second semestre (a priori ils sont surtout utilisés au premier semestre en 5SDBD et 5SIEC). Il y a 4 GPU quadro P4000 par serveur et ce sont des bêtes de course. Sinon il y a des PC dans les salles de TP (109, 111 et 105) avec des GPU qui sont aussi très corrects. Peut-être qu'il faudrait faire un test sur une des machines pour voir si ça passe et quelle quantité de ressource ça nécessite. On peut aussi facilement installer de nouveau logiciels si besoin (il y a déjà TensorFlow d'installé).
Robin MoineAujourd’hui à 23:06 D'accord, le mail de Mr Di Mercurio m'avait mis le doute sur le fonctionnement du système car il me demandait s'il fallait pouvoir "mettre une carte GPU dans la machine" (serveur du GEI). Donc si je comprends bien les GPU sont sur les serveurs et suivant les besoins on pourra avoir accès à plus ou moins de GPU (avec en plus potentiellement les GPU des salles de TP) D'ailleurs, si les machines de TP du GEI ont des cartes graphiques performantes, savez-vous s'il est possible d'y accéder en ssh (en effet, si un entrainement se finit quand nous ne sommes pas sur l'INSA cela nous permettrait potentiellement d'en lancer un nouveau à distance)
Après avoir été voir Mr Di Mercurio dans son bureau :
Accès temporaire dispo (mais on ne peut pas stocker encore les bdds) :
Pb supposé : tensorflow ne reconnait pas les GPUs Code de test :
import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU'))) # d'après la documentation de tensorflow : https://www.tensorflow.org/guide/gpu
tf.debugging.set_log_device_placement(True)
from tensorflow.keras.layers import Input,Conv2D
i = Input(shape=(50,50,3))
c = Conv2D(3,2)(i)
# Affiche les logs de placement sur CPU actuellement contre GPU normalement
Mail envoyé à Mr Hladik pour savoir si c'est normal avec les manips que j'ai réalisées
python3 -c 'import tensorflow as tf; print(tf.version)' # for Python 3 Tensorflow 2.2.0
Donc requis : à priori au moins CuDNN 7.6 ; CUDA 10.1 python 3.5-3.8 https://www.tensorflow.org/install/source#gpu
Version de CUDA installée : CUDA Version 10.2.89
Version du CuDNN installée : fichier non trouvé
(grep CUDNN_MAJOR -A 2 /usr/local/cuda/include/cudnn.h
)
https://stackoverflow.com/questions/50622525/which-tensorflow-and-cuda-version-combinations-are-compatible
à priori manque tensorflow-gpu
Tout bon cf #19
Besoin de WSL pour se connecter ?