Suite à une présentation "architecture tech" avec @maxime-siret @AntoineAugusti et @Brewennn ce matin, où on a abordé l'architecture mais aussi les enjeux derrière, je crée ce ticket des possibilités d'améliorations et des points d'attention associé.
Re:
j'ai demandé à Thibaut et Antoine de me faire une liste des chantiers d'améliorations de l'architecture, avec une petite estimation du temps de dev' associé. Cela me permettra de ne pas oublier ces chantiers dans la feuille de route du PAN et à présenter en board également
Diagramme simplifié
Points d'attention
stockage S3 (historisation, validation...) -> pas de backup hors-site (et pas de backup tout court, sauf peut-être chez CleverCloud mais non vérifié). L'écosystème s'appuie sur nos fonctions d'historisation de plus en plus (https://github.com/etalab/transport-site/pull/4194)
criticité par façon d'interagir:
le site (5M de requêtes par mois, dont des "crawlers") -> impact navigation pour les utilisateurs
l'API (160k requêtes par mois) -> impact intégration automatisées dans des pipelines de données (urgence plus forte)
le proxy temps réel (70M de requêtes par mois) -> impact calculs d'itinéraires (urgence encore plus forte)
il faudrait "objectiviser" les attentes actuelles de l'écosystème à notre égard (j'y reviens plus bas), pour mettre en face les moyens adaptés (pas + pas -)
zones en vert (blog/normes/contribuer) -> stack technique différente, et dette technique forte
conserver une autonomie au niveau équipe sur les choix d'outils (les outils de monitoring ou d'ops ne sont pas interchangeables)
dépendances aux systèmes tiers (panne chez x ou y -> peut causer une panne chez nous)
pas de structure RH adaptée actuellement, ni de "SLA" clair, pour gérer les éventuelles pannes (c'est "au volontariat")
Chantiers d'amélioration
à compléter / relire / estimer avant board, c'est un premier jet.
Aller à la rencontre de nos réutilisateurs, évaluer (sondages) l'impact d'une indisponibilité chez nous, pour eux (site / API / proxy) -> important pour objectiviser la criticité, et pouvoir rendre des comptes à nos sponsors
Solidifier les "restarts" chez CleverCloud : réunion à prévoir avec eux, j'envisage d'implémenter un système de redémarrage "automatique" chez nous avec la bonne heuristique, car c'est la source majeure de downtime aujourd'hui
MCO : préparatifs pour être capable de redéployer ailleurs en cas d'incident majeur (type incendie), chez un autre hébergeur (avoir joué le jeu permet de gagner un temps considérable, et de répondre à ce qu'on a signé dans l'audit de conformité aussi)
Suite à une présentation "architecture tech" avec @maxime-siret @AntoineAugusti et @Brewennn ce matin, où on a abordé l'architecture mais aussi les enjeux derrière, je crée ce ticket des possibilités d'améliorations et des points d'attention associé.
Re:
Diagramme simplifié
Points d'attention
Chantiers d'amélioration
à compléter / relire / estimer avant board, c'est un premier jet.