jtarrieu / mare.data

EPF semester project MARE.DATA . Banyuls marine observatory - EPF - Data Science & Engineering
3 stars 0 forks source link

Documenter le choix de la solution pour le batch #52

Closed victoireladreit closed 11 months ago

victoireladreit commented 12 months ago

Définition du processus de batch.pdf

victoireladreit commented 11 months ago

@NicolasSorb Bonjour, le document est prêt à être relu. Merci pour votre retour ! :)

NicolasSorb commented 11 months ago

@victoireladreit Bonjour, Le document est lu (et est comme d'habitude bien rédigé). J'ai bien noté que le processus avec script python est retenu. J'ai cependant une petite question concernant l'utilisation d’un connecteur JDBC avec Kafka Connect. Au niveau streaming tout serait réalisé par ce connecteur et donc rien ne serait stocké dans Kafka cluster ?

EtlcT commented 11 months ago

@NicolasSorb Bonjour, je me permets de vous répondre étant à l'origine du document, je suis contente qu’il vous ait paru clair. Concernant votre interrogation j’y réponds simplement et vous donne plus de détails ci après. En peu de mots : ElasticSearch serait tenu à jour vis à vis de Mariadb grâce au connecteur JDBC et la donnée ne persisterait dans le cluster Kafka que le temps nécessaire à sa bonne insertion dans ElasticSearch mais cela n’est pas spécifique à cette solution. Dans kafka on peut définir au bout de combien de temps on souhaite que la donnée soit effacée que l’on ait mis en place un connecteur JDBC ou non.

NicolasSorb commented 11 months ago

@EtlcT Bonjour, Oui vous avez bien répondu à ma question, merci, c'est clair pour moi. Kafka est en effet un outil puissant. Par ailleurs, il est intéressant aussi que dans votre choix final le coût environnemental ait été pris en compte. Bon vendredi à vous !