etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
195 stars 30 forks source link

Import de données : meilleure détection type documentation #4308

Closed AntoineAugusti closed 1 week ago

AntoineAugusti commented 1 week ago

Détecter les formats HTML, PDF et SVG comme étant des fichiers de documentation pour tous les types de données et non uniquement la catégorie public-transit.

Par exemple, le JDD 🅿️ Indigo a une ressource HTML qui n'est pas indiquée comme de la documentation.

Je ne sais pas pourquoi on se limitait précédemment à la catégorie des TC.

https://github.com/etalab/transport-site/blob/d5f7d749ea50164a8df181c1eafe31f85d146484/apps/transport/lib/transport/import_data.ex#L566-L580

Données existantes

select format, type, count(1)
from resource
where format in ('pdf', 'html', 'svg')
group by 1, 2
format type count
pdf documentation 30
html documentation 7
html main 6
pdf other 3
html other 2
pdf main 1

cc @etalab/transport-bizdev