medialab / toflit18_data

Datapackage for TOFLIT18 research project
4 stars 1 forks source link

Tri des sources et passage de bdd centrale vers sources #1

Closed gdaudin closed 9 years ago

gdaudin commented 9 years ago

Avant de faire le verisoning, il faudrait trier tous les csv par les colonnes exportsimports et numrodeligne

et rajouter SourceType pour BDD centrale

SourceType exportsimports numrodeligne

paulgirard commented 9 years ago

L’ordre de tri actuel (see commit 389c8fa588c06440aeae53bc5c1d881bfa3e2028) de la base de donnée centrale en croissant: SourceType / year / direction / exportsimports / numéro de ligne / marchandises / pays

Pour les source on les trie de la même manière. Sauf pour National / Par direction/ 1749-50-51 year / partenaire / exportsimports / numéro de ligne

Et divers 1671 : year / exportsimports / numéro de ligne

Il faut enlever les colonnes qui sont vides pour une source donnée. Ces colonnes vides sont des colonnes qui n'existent que dans d'autres sources.

Passage de base centrale à Sources : Grouper les lignes par source pour chaque groupe de ligne par sourcePath on trie suivant la règle établie ci-dessus on enlève les colonnes vides dans ce groupe on écrit le groupe dans un fichier source qui remplace la version actuelle (en versionnant)

Il faut pouvoir repérer les fichiers sources qui n'ont pas été modifié par cette mise à jour.

paulgirard commented 9 years ago

Attention il faudra faire le travail dans l'autre sens sources vers base de donnée centrale

gdaudin commented 9 years ago

Je me demande si je n'ai pas un brain fart. Ces clefs de tri ne donnent pas ce que j'espérai, notamment parce que les numéros de ligne ne se suivent pas.

Mais d'ailleurs, si je regarde 1671, je ne comprends pas comment on a ce résultat, dans les toutes premières lignes. Ce devrait bien être exportsimports / numrodeligne

Mais ce n'est pas ce que je vois si ?

gdaudin commented 9 years ago

Un des soucis c'est que numrodeligne semble trié comme un texte plutôt q'un nombre (et donc que 23 est avant 3, par exemple)