Documenter le choix de la solution pour le batch

victoireladreit commented 12 months ago

victoireladreit commented 11 months ago

@NicolasSorb Bonjour, le document est prêt à être relu. Merci pour votre retour ! :)

NicolasSorb commented 11 months ago

@victoireladreit Bonjour, Le document est lu (et est comme d'habitude bien rédigé). J'ai bien noté que le processus avec script python est retenu. J'ai cependant une petite question concernant l'utilisation d’un connecteur JDBC avec Kafka Connect. Au niveau streaming tout serait réalisé par ce connecteur et donc rien ne serait stocké dans Kafka cluster ?

EtlcT commented 11 months ago

@NicolasSorb Bonjour, je me permets de vous répondre étant à l'origine du document, je suis contente qu’il vous ait paru clair. Concernant votre interrogation j’y réponds simplement et vous donne plus de détails ci après. En peu de mots : ElasticSearch serait tenu à jour vis à vis de Mariadb grâce au connecteur JDBC et la donnée ne persisterait dans le cluster Kafka que le temps nécessaire à sa bonne insertion dans ElasticSearch mais cela n’est pas spécifique à cette solution. Dans kafka on peut définir au bout de combien de temps on souhaite que la donnée soit effacée que l’on ait mis en place un connecteur JDBC ou non.

effectivement la solution pour l’extraction incluant la mise en place d’un connecteur JDBC avec Kafka connect permettrait d’éviter la réalisation de la pipeline de streaming (déjà fortement avancée) car le principe du connecteur est de contrôler à intervalle régulier ce qu’il se passe dans mariadb et d’ainsi toujours synchroniser Elastic avec le nouveau contenu ;
concernant le stockage de la donnée dans Kafka, la donnée transiterait par le cluster kafka mais sans que cela nécessite de la stocker au delà du temps imparti pour le traitement et l’insertion de celle-ci dans ElasticSearch. Toutefois la suppression des données du Kafka cluster après insertion dans Elastic n’est pas dépendante de la mise en place du connecteur JDBC ; cela se définit au niveau de la configuration de Kafka et peut donc aussi être définit au sein de la solution actuellement développée pour la pipeline de streaming. J’espère avoir répondu à votre question, n’hésitez pas si cela ou d’autres choses demeurent peu claires. On pourra aussi en rediscuter lors de notre prochaine réunion.

NicolasSorb commented 11 months ago

@EtlcT Bonjour, Oui vous avez bien répondu à ma question, merci, c'est clair pour moi. Kafka est en effet un outil puissant. Par ailleurs, il est intéressant aussi que dans votre choix final le coût environnemental ait été pris en compte. Bon vendredi à vous !

jtarrieu / mare.data

Documenter le choix de la solution pour le batch #52