CNRS-LACITO / Pangloss_deposits-and-metadata

In addition to repos for the Pangloss website (Pangloss_website) and for Pangloss DOIs (Pangloss_DOI), this is a repo for tracking data deposits and improvements to the metadata.
GNU General Public License v3.0
0 stars 0 forks source link

Où stocker les autorisations des locuteurs, et les métadonnées confidentielles? #8

Open alexis-michaud opened 7 years ago

alexis-michaud commented 7 years ago

Il faudrait avoir un lieu où stocker, de façon non publique,

Où est-ce que ça pourrait être stocké, de façon à ce que ce soit bien archivé (=pas à la merci d'un oubli lors d'un passage d'un disque à l'autre, d'un serveur à l'autre...) et bien relié aux ressources concernées?

Tavalmayam commented 7 years ago

Bonne question. Pour info, ces deux points sont remarquablement bien gérés par le logiciel de transcription SIL SayMore https://software.sil.org/saymore/screenshots/, que nous utilisons déjà comme un input possible pour Pangloss. Donc si nous créons un lieu dans Pangloss où stocker ces infos, il faudrait qu'elles soient récupérables automatiquement à partir de l'interface de SayMore.

sguillaume commented 7 years ago

Je pense, pour commencer, qu'il nous faut réfléchir à un lieu de stockage pour ces informations. Qu'elles soient récupérables ou non pour un logiciel particulier est secondaire. D'autant plus que SayMore n'est pas tellement utilisé et surtout les imports c'est juste galère. S'il fallait absolument choisir un outil je dirais qu'Arbil est plus logique.

Bref, trouvons déjà une solution de stockage.

Tavalmayam commented 7 years ago

Quel lieu de stockage proposes-tu?


alexis-michaud commented 7 years ago

Ca serait du ressort de Nakala, non?

Tavalmayam commented 7 years ago

Ce sera sûrement sur HumaNum, puisque tout va bientôt se trouver là-bas. Donc peut-être Nakala, je ne sais pas.

Mais cela prendrait quel format? un gros fichier Xml de métadonnées? des fichiers séparés, un par ressource??


alexis-michaud commented 7 years ago

Pour les autorisations, ce serait fichier par fichier. Allez je me lance. Syntaxe du nom de fichier :

\<code langue>_\<code locuteur>_\<année>

(je crois que j'ai maxi 1 autorisation par an)

et aussi "CC" pour "CreativeCommons", quand c'est ça la licence choisie.

Exemple : NRU_F4_2017_CC.pdf

Je laisse le format d'origine : JPG, PDF... Ce sont des scans ou photos du document papier signé.

Je crée un dossier "licenses_authorizations" dans le repositoire GitHub "Pangloss". Je proposerais qu'on mette tout à plat. Question à Séverine : souhaites-tu qu'il y ait 1 dossier par déposant? Ou on met tout à plat dans le même dossier? Pour l'instant je mets tout à plat.

Ensuite, dans les métadonnées des documents (=pour chaque document), on ajouterait la référence au fichier scanné.

Les métadonnées, j'en garde 1 copie dans le document Excel qui me sert pour la saisie (et dont les métadonnées sont extraites par un script de Séverine lors des dépôts).

alexis-michaud commented 5 years ago

Une info en direct de la Journée d'étude "Questions éthiques & cadre juridique autour des corpus langagiers" : le laboratoire ICAR (Lyon) scanne et conserve les autorisations écrites dans un stockage numérique hors réseau : disques durs en "armoires fortes" à accès restreint.

alexis-michaud commented 3 years ago

@sguillaume si tu avais l'occasion de lancer la discussion à l'échelle de Cocoon...? Pour lutter contre la déperdition de métadonnées et de documents papier (de même qu'on lutte contre la déperdition de données). Ce n'est pas évident de remettre la main sur des documents qu'on garde quelque part sans lieu de dépôt.

alexis-michaud commented 2 years ago

En direct d'une journée de formation "La protection des données personnelles dans les projets de recherche" : même demande émanant d'autres projets et d'autres unités de recherche. Huma-Num ni le CINES ne considèrent être directement responsables d'héberger des autorisations. Un travail est nécessaire pour articuler l'archivage des données (archivage pérenne) avec l'archivage de données à caractère personnel, plus souvent traité en termes d'archivage courant et archivage intermédiaire. Un archivage pérenne de "méta-documents" est-il possible ?

À suivre.

sguillaume commented 2 years ago

Pour la conservation des autorisations des locuteurs (et autres) et des informations de métadonnées non diffusables :

Idée :

Propositions pour le stockage :

Est ce que l'on fait un tableur par déposant ou un csv général ? Un tableur général permettra une meilleure vue d'ensemble de ce que l'on stocke.

maxime-fily commented 1 year ago

Je souscris totalement à la proposition de @sguillaume : stockage en local. Ma pierre à l'édifice : archivage sur bandes magnétiques. C'est encore largement utilisé, mais je ne sais pas si c'est aisé à mettre en place. un article du monde informatique en parle : https://www.lemondeinformatique.fr/actualites/lire-pourquoi-l-archivage-sur-bande-est-toujours-d-actualite-73237.html A voir...