Closed AnZadykhina closed 6 years ago
idref.xlsx Bonsoir à toutes! C'est le fichier avec noms-prénoms-IDs des auteurs (selon IdRef). Il manque deux premiers noms mais il n'y a pas de problèmes avec eux, je les ai collés directement dans le fichier csv. Pour les 150-200 premières personnes normalement il n'y a pas de difficultés, il y a des noms de thèses et le nom d'établissement (ENC). Mais pour le reste j'ai trouvé autres problèmes: 1) Je n'ai pas trouvé des IDs pour quelques personnes. 2) Il y a 2 IDs pour une seul personne (ce problème est actuel pour les femmes qui ont changé leurs noms après le mariage) + Est-ce qu'on doit corriger les noms et les prénoms selon IdRef? 3) Pour les anciens promos c'est assez difficile d'identifier la personne: il n'y a ni nom d'établissement ni nom de thèse. J'ai pris ceux qui sont archivistes/conservateurs/bibliothécaires etc. Êtes-vous d'accord avec cette méthode?
Il faut croiser tes recherches Anastasiia avec le fichier que nous a fourni Frédérique Couffignal qui comprend les ppn des notices d'auteurs de thèses de l'ENC dans le SUDOC. Ci-joint le fichier. IDREF-Position these.txt
J'aimerais discuter de ce fichier demain. Êtes-vous d'accord?
Oui on en discute demain
Bonnes nouvelles! En SUDOC je peux trouver la plupart des IDs pour thèses mais j'ai besoin de temps pour remplir le fichier csv. Cela peut prendre quelques jours. Ça nous convient?
Comme il n'y a pas d'identifiants IDref pour tous les auteurs de thèses, il faut générer un identifiant. Nous allons forger un author_key avec l'identifiant position (id) et la colonne tri (tri) du fichier csv, ainsi : id_tri. Un attribut ref=IDRef sera ajouté quand il existe. L’identifiant et le lien vers l’IDRef seront insérés dans le TEIheader.
J'ai généré l'identifiant author_key par la concaténation des deux colonnes. D'ailleurs, le fichier csv de la branche origine est mis à jour avec cette modification. En revanche, je me pose des questions si l'doit remplacer "IDRef" par "author_key" pour les noms qui n'ont pas d'IDRef dans le fichier tei. Pour le moment, le modèle teiHeader ne prévoit pas de place pour l'identifiant author_key, mais uniquement pour IDRef. S'il faut avoir un identifiant pour chaque auteur, il faut peut-être utiliser un autre attribut pour insérer les author_key. Je pense qu'il ne faut pas mélanger les deux, non? En plus, si la structure des répertoires pour capitaine sera par années, l'identifiant author_key ne semble plus nécessaire. Comment voyez-vous les choses?
Je pense qu'on ne peut pas mélanger 2 identifiants différents. Mais on peut garder author_key comme attribut (comme tu proposes). Cela est utile pour les auteurs sans identifiants.
Intégration des identifiants IDRef dans la colonne IDRef du fichier theses.csv pour ensuite alimenter les métadonnées du TEIHeader du fichier xml et du fichier cts work. Les authorkey du fichier theses.csv ne sont pas reportées dans le TEIheader du fichier xml et du fichier cts work.
Fichier theses.csv comporte tous les identifiants IDREF trouvés pour les promotions 2000 à 2015.
Rechercher le permalien pour chaque auteur des années réparties dans des référentiels Rameau et IDRef. Insertion de l'identifiant dans le fichier csv, rubrique @authorRef