Corpus descriptions as data papers? Q de la publication (pérenne) des pages de présentation des corpus

alexis-michaud commented 2 years ago

La page de présentation d'un corpus est un élément-clef pour l'utilisation du corpus (depuis les débuts du projet Pangloss).

Elle a vocation à être une référence centrale où trouver des explications concernant les conventions de notation.
Elle contient des informations (métadonnées) qui concernent toutes les ressources du corpus : sorte de "factorisation" de métadonnées concernant les conditions d'enquête, etc.
Elle peut contenir (en mode PRO) une bibliographie consistante.

D'où une question importante, qui à l'heure actuelle n'a pas encore de réponse : Comment assurer la publication (pérenne) des pages de présentation des corpus ?

Dans l'immédiat, un point qui paraît essentiel serait d'avoir un archivage pérenne de ce contenu (avec identifiant) et un système de versionnage (une version tous les ans, lorsqu'il y a eu des modifications ? ou un système de changement de version 'manuel' sur décision de l'auteur ?).

À moyen terme (ou dès que les moyens humains seront disponibles : savoir-faire éditorial), il pourrait être indiqué de "frapper un grand coup" (expression reprise à Michel Launey : nul bellicisme !) en considérant ces pages comme autant de data papers. Cela demanderait à fixer des objectifs élevés, et avoir un processus de labellisation, pour ne pas apposer l'étiquette de data paper sur un contenu qui ne satisfait pas à l'ensemble des exigences couramment associées avec cette notion éditoriale.

Un avantage de considérer la page de présentation comme une publication scientifique serait que cela encouragerait les déposant.e.s à y consacrer du temps et du soin, car elles & ils seraient assurées que ces efforts ne sont pas seulement sur le court terme (comme c'est la règle du genre pour les pages web) mais entrent dans le même cadre que des publications comme des communications dans des actes de colloques.

alexis-michaud commented 2 years ago

Les pages de présentation ont vocation à être intégrées au livret créé (via LaTeX) comme sortie PDF pour consulter un corpus comme un livre mis en page. (En lien avec l'export demandé ici)

alexis-michaud commented 1 week ago

Entendu lors du colloque "Language Documentation & Archiving" de septembre 2024 à Berlin : réflexions des collègues du projet DoBeS au sujet de la préservation (et de l'enrichissement) des infos qui figurent dans les descriptions de corpus (sur le site, pas dans l'archive). Le résumé : "integrating the website into the archive". Bien intéressant ! et en plus eux ont maintenant (ou auront bientôt) une expérience pratique du processus. Vidéo ici.

Ce qui tend à aller dans le sens de l'intuition que cette tâche est porteuse / importante / "stratégique".

CNRS-LACITO / Pangloss_website

Corpus descriptions as data papers? Q de la publication (pérenne) des pages de présentation des corpus #185