SciencesPoDRIS / iamassaccess

Upload and modify in mass for Internet Access
GNU General Public License v3.0
0 stars 0 forks source link

Add METS-xml metadata parsing and handling #17

Open diegantobass opened 8 years ago

annelhote commented 8 years ago

As an alternativ to the CSV metadata file.

diegantobass commented 8 years ago

concernant le recueil des métadonnées (titre, auteur ...), dans le cas création d'un nouvel item, plusieurs problèmes se posent dont les plus évidents sont ceux ci. il n'y a pas toujours un fichier de métadonnées existant. si ce fichier existe, il est plutôt, chez Sciences Po, dans un format mets-xml, qui lui même contient des données mods qui elles-même peuvent servir à former les champs auteur, titre .... la granularité : on a pas forcément 1 item = 1 fichier de méta données (ca peut être 1 pour N ou N pour 1 ... !). Exemple, pour les archives électorales, ils ont fait un fichier mets-xml par année d'élection ... si jamais on a bien un cas 1 pour 1, le fait que les champs que l'on cherche à remplir (ex : auteur), ne sont pas présents en l'état dans le fichier mets-xml. On va plutôt trouver un truc, au mieux (ca peut être vachement plus complexe), de la forme :

Boutmy/mods:namePart Emile/mods:namePart 1835-1906/mods:namePart A partie de là, il y a des règles de conversion qui vont donner, par exemple Boutmy, Emile (1835-1906) --- Pour résoudre ces questions, je suggère 1. de faire l'hypothèse que l'on dispose d'un CSV ou autre format tabulé de la forme (avec les éléments du Dublin Core + item et fichier) item;creator;title;subject;date;fichierPDF LESMISERABLES;Victor, Hugo (1802-1885); Les Misérables;misère;1862;monpdf.pdf MAVIE;Le Pape(1936-);Ma vie;autobiographie;2016;autrepdf.pdf 1. de retrouver le batch/script de Julien Rault qui fait des conversions vers le format Dublin Core qui est la base des champs attendus sur Internet Archive. Des infos sont là dedans : https://docs.google.com/document/d/1fdUIk7m6s1vvnNUnVWp_gLlu1qMlMhdQS-jcCZJGix4 Au moins une partie est en python et githubisé donc il a moyen de fusionner du code. Ceci dit, je ne retrouve pas son code surgithub, alors qu'il est présenté comme étant dans le compte du medialab 2. d'avoir deux modes de travail possibles - celui où l'on rentre avec un fichier tabulé type CSV (typiquement le cas archélec/Cevipof) - celui où l'on a un fichier METS-xml par item et où on génère les champs en utilisant d'abord une conversion et dans un second temps l'outil de dépôt-modification-en-masse Qu'en pensez vous ? Je ne sais pas du tout si je suis claire, j'espère que oui. Geneviève