Open alexis-michaud opened 7 years ago
Bonne question. Pour info, ces deux points sont remarquablement bien gérés par le logiciel de transcription SIL SayMore https://software.sil.org/saymore/screenshots/, que nous utilisons déjà comme un input possible pour Pangloss. Donc si nous créons un lieu dans Pangloss où stocker ces infos, il faudrait qu'elles soient récupérables automatiquement à partir de l'interface de SayMore.
Je pense, pour commencer, qu'il nous faut réfléchir à un lieu de stockage pour ces informations. Qu'elles soient récupérables ou non pour un logiciel particulier est secondaire. D'autant plus que SayMore n'est pas tellement utilisé et surtout les imports c'est juste galère. S'il fallait absolument choisir un outil je dirais qu'Arbil est plus logique.
Bref, trouvons déjà une solution de stockage.
Quel lieu de stockage proposes-tu?
Ca serait du ressort de Nakala, non?
Ce sera sûrement sur HumaNum, puisque tout va bientôt se trouver là-bas. Donc peut-être Nakala, je ne sais pas.
Mais cela prendrait quel format? un gros fichier Xml de métadonnées? des fichiers séparés, un par ressource??
Pour les autorisations, ce serait fichier par fichier. Allez je me lance. Syntaxe du nom de fichier :
\<code langue>_\<code locuteur>_\<année>
(je crois que j'ai maxi 1 autorisation par an)
et aussi "CC" pour "CreativeCommons", quand c'est ça la licence choisie.
Exemple : NRU_F4_2017_CC.pdf
Je laisse le format d'origine : JPG, PDF... Ce sont des scans ou photos du document papier signé.
Je crée un dossier "licenses_authorizations" dans le repositoire GitHub "Pangloss". Je proposerais qu'on mette tout à plat. Question à Séverine : souhaites-tu qu'il y ait 1 dossier par déposant? Ou on met tout à plat dans le même dossier? Pour l'instant je mets tout à plat.
Ensuite, dans les métadonnées des documents (=pour chaque document), on ajouterait la référence au fichier scanné.
Les métadonnées, j'en garde 1 copie dans le document Excel qui me sert pour la saisie (et dont les métadonnées sont extraites par un script de Séverine lors des dépôts).
Une info en direct de la Journée d'étude "Questions éthiques & cadre juridique autour des corpus langagiers" : le laboratoire ICAR (Lyon) scanne et conserve les autorisations écrites dans un stockage numérique hors réseau : disques durs en "armoires fortes" à accès restreint.
@sguillaume si tu avais l'occasion de lancer la discussion à l'échelle de Cocoon...? Pour lutter contre la déperdition de métadonnées et de documents papier (de même qu'on lutte contre la déperdition de données). Ce n'est pas évident de remettre la main sur des documents qu'on garde quelque part sans lieu de dépôt.
En direct d'une journée de formation "La protection des données personnelles dans les projets de recherche" : même demande émanant d'autres projets et d'autres unités de recherche. Huma-Num ni le CINES ne considèrent être directement responsables d'héberger des autorisations. Un travail est nécessaire pour articuler l'archivage des données (archivage pérenne) avec l'archivage de données à caractère personnel, plus souvent traité en termes d'archivage courant et archivage intermédiaire. Un archivage pérenne de "méta-documents" est-il possible ?
À suivre.
Pour la conservation des autorisations des locuteurs (et autres) et des informations de métadonnées non diffusables :
Idée :
Propositions pour le stockage :
Est ce que l'on fait un tableur par déposant ou un csv général ? Un tableur général permettra une meilleure vue d'ensemble de ce que l'on stocke.
Je souscris totalement à la proposition de @sguillaume : stockage en local. Ma pierre à l'édifice : archivage sur bandes magnétiques. C'est encore largement utilisé, mais je ne sais pas si c'est aisé à mettre en place. un article du monde informatique en parle : https://www.lemondeinformatique.fr/actualites/lire-pourquoi-l-archivage-sur-bande-est-toujours-d-actualite-73237.html A voir...
Il faudrait avoir un lieu où stocker, de façon non publique,
Où est-ce que ça pourrait être stocké, de façon à ce que ce soit bien archivé (=pas à la merci d'un oubli lors d'un passage d'un disque à l'autre, d'un serveur à l'autre...) et bien relié aux ressources concernées?