Privilégier des acquisitions groupées, c’est à dire plusieurs personnes s’abonnent pour une même acquisition pour éviter le spam. Exemple: notre structure scrap l’historique data de lemonde.fr tous les samedi, tu peux t’abonner pour les recevoir à ce moment.
Probablement dé-corrélé l'acquisition du cleaning. La stack doit permettre de faire de l’acquisition de n’importe quoi, mais aussi de brancher une step de cleaning qui suit.
Features / mechanics
Création de nouvelles configuration d’acquisitions
Abonnement à un / plusieurs flux de données
Choix par conf
Par requête (toutes les configurations de type “média”, ou pour “lemonde.fr” ou “insee.fr”)
Shipping dans leur DB directement, S3, dans un système de queue
Permettre de s’abonner aux données RAW ou aux données clean
Abonnement / requête d’acquisition d’historique pour une source
Alerting / Monitoring
Créer des "connecteurs", template de configuration pour certaines sources, tel que data.gouv.Fr par exemple
Business Model
Dual Licensing ?
Gratuit pour non-profit, recherche publique (c’est possible ça ?)
Comme beaucoup de service, comme Travis CI par exemple, les conf tournent avec les ressources qu’on donne
Service open source, docker image
Accès au repository helm, son propre catalogue de données
Facturation si entreprise / but lucratif
Stack dédiée
Some notes
Beaucoup d’entreprise font appel à des SSII ou à du développement interne pour mettre en place de l’acquisition de données.
A vérifier, il semblerait et ne serait pas étonnant que tous les chercheurs et les universitaires fassent leur acquisition à la main avec des scripts customs, qui peinent à évoluer.
Service d'acquisition de données, on fournit un accès à une base de données de manière ouverte, et accès à nos service de stream.
Ainsi, un data scientist, un DE ou whatever pourrait consommer les nouvelles données qui arrivent.
Quand un client à besoin de l’historique d’une source, il s’abonne à la file dédiée. La configuration de scraping définit une heure pour être lancée en mode “historique”.
Les autres gens qui s’abonnent recevront aussi les events.
Si personne n’est abonnés, on ne scrappe pas l’historique du site.
On peut probablement imaginer un modèle où pour certaines source de données qui n'autorisent pas la copie des données (ex: certains médias web) de ne pas la garder chez nous directement. On envoie la donne quand elle arrive et le reste est a la discrétion des utilisateurs.
Modèle open source ?
Il faudrait regarder, mais il me semble avoir vu que certaines license permettent de faire payer l’utilisation / les données si le client en retire de l’argent.
L'acquisition de données
Description courte
Temporalité
Acquisition l'historique, jobs longs
Dernières données publiées, jobs courts
Schédulé
Privilégier des acquisitions groupées, c’est à dire plusieurs personnes s’abonnent pour une même acquisition pour éviter le spam. Exemple: notre structure scrap l’historique data de lemonde.fr tous les samedi, tu peux t’abonner pour les recevoir à ce moment.
Probablement dé-corrélé l'acquisition du cleaning. La stack doit permettre de faire de l’acquisition de n’importe quoi, mais aussi de brancher une step de cleaning qui suit.
Features / mechanics
Business Model
Dual Licensing ? Gratuit pour non-profit, recherche publique (c’est possible ça ?) Comme beaucoup de service, comme Travis CI par exemple, les conf tournent avec les ressources qu’on donne
Service open source, docker image
Accès au repository helm, son propre catalogue de données
Facturation si entreprise / but lucratif
Stack dédiée
Some notes
Beaucoup d’entreprise font appel à des SSII ou à du développement interne pour mettre en place de l’acquisition de données.
A vérifier, il semblerait et ne serait pas étonnant que tous les chercheurs et les universitaires fassent leur acquisition à la main avec des scripts customs, qui peinent à évoluer.
Service d'acquisition de données, on fournit un accès à une base de données de manière ouverte, et accès à nos service de stream. Ainsi, un data scientist, un DE ou whatever pourrait consommer les nouvelles données qui arrivent.
Quand un client à besoin de l’historique d’une source, il s’abonne à la file dédiée. La configuration de scraping définit une heure pour être lancée en mode “historique”.
Les autres gens qui s’abonnent recevront aussi les events.
Si personne n’est abonnés, on ne scrappe pas l’historique du site.
On peut probablement imaginer un modèle où pour certaines source de données qui n'autorisent pas la copie des données (ex: certains médias web) de ne pas la garder chez nous directement. On envoie la donne quand elle arrive et le reste est a la discrétion des utilisateurs.
Modèle open source ?
Il faudrait regarder, mais il me semble avoir vu que certaines license permettent de faire payer l’utilisation / les données si le client en retire de l’argent.