mdiplo / Medias_francais

Qui possède quoi ?
Other
463 stars 53 forks source link

la colonne «source» de relations_medias_francais.tsv contient parfois plusieurs urls #13

Open Asenar opened 6 years ago

Asenar commented 6 years ago

L'exploitation de la base est plus difficile quand un champ contient 2 urls (ou plus), parfois séparés par et, et parfois séparé par une virgule (apparemment).

Je ne sais pas s'il serait plus simple d'avoir plusieurs lignes ou d'avoir plus de champs (au risque qu'ils soient souvent vide).

BoOz commented 6 years ago

On devrait en effet au moins unifier avec un séparateur unique , par exemple.

thibnton commented 6 years ago

Ok pour unifier. Pas sûr qu'il soit nécessaire d'avoir toutes ces sources, une suffirait.

Asenar commented 6 years ago

Je pense aussi qu'une seule serait suffisante. Par contre il y en a beaucoup qui se contentent d'indiquer un site internet (genre lefigaro) plutôt qu'un lien direct vers l'information.

Il y a un moyen de contribuer pour compléter la base ?

Sinon pendant que j'y suis je me rend compte d'un autre truc un peu gênant : les «valeurs» des relations, sont parfois des pourcentages (XX possède 80% d'un média), et parfois c'est possède ou participe

thibnton commented 6 years ago

"Participe" c'est quand on ne sait pas à hauteur de combien, contrairement à "possède".

En tout cas j'ai unifié avec un séparateur unique, comme préconisé par @BoOz dans la dernière màj.

Asenar commented 6 years ago

Merci :)

Du coup, je simplifie un peu mon script (en fait c'est pas si compliqué d'avoir plusieurs valeurs dans un champ, du moment qu'on a le ou même les séparateurs :) )