transition-bibliographique / poc-fne

Preuve de concept basée sur Wikibase pour le "Fichier National d'Entités" (Abes/BNF). Projet réalisé en 2019.
http://www.abes.fr/Autorites-et-referentiels/Projet-FNE-Fichier-National-d-Entites
4 stars 1 forks source link

Les zones répétées devrait par défaut avoir une propriété spécifique #198

Closed jum-s closed 5 years ago

jum-s commented 5 years ago

La notice des Reveries du promeneur contient deux zones 610. Or une même propriété est créée pour ces deux zones. S'il s'avère que plusieurs sous-zones appartiennent à une zone :

    {
      "tag": "610",
      "subfields": [
        {
          "code": "a",
          "$t": "Laffont Bompiani, Oeuvres, 1994"
        }
      ]
    },
    {
      "tag": "610",
      "ind1": " ",
      "ind2": " ",
      "subfields": [
        {
          "code": "a",
          "$t": "Van Tieghem"
        },
        {
          "code": "a",
          "$t": "Beaumarchais"
        }
      ]
    },

alors l'élément dans wikibase est créé avec 2 propriétés distinctes :

  'interxmarc:610:a:0': [ 'Laffont Bompiani, Oeuvres, 1994', 'Van Tieghem' ],
  'interxmarc:610:a:1': [ 'Beaumarchais' ],

Il y a eu perte d'information pendant le chargement, puisqu'il est impossible de savoir depuis wikibase que Van Tieghem et Beaumarchais appartenait à la même zone intermarc initiale.

Comme la reversibilité des formats est une spécification, cela pose problème. Solution possible: Par défaut (cad en absence de modélisation spécifique), un ordinal sur les zones permettrait de garder cette information (comme cela à été fait sur les sous-zone (le 0 dans interxmarc:610:a:0). Les identifiants temporaires de propriété (appelé pseudoId dans le code) ressembleraient donc à quelque chose comme interxmarc:610:0:a:0

jum-s commented 5 years ago

Seul les datafields sont concerné par cette modification d'identifiant? Je n'ai pas vu passer de répétition de controlfield puisqu'ils sont basés sur des positions, mais je préfère confirmer avec vous.

gotnc commented 5 years ago

Oui seulement les data fields.

gotnc commented 5 years ago

Le chargement a été réalisé avec la résolution proposée ici et le résultat s'avère non satisfaisant : insérer l'ordre des zones/sous-zones dans le nom des propriétés pose problème lorsqu'il s'agit de faire des recherches (puisqu'une même propriété d'origine peut se retrouver par ce système éclatée en un grand nombre de properties distinctes). Le ticket nous aura permis de constater qu'il faut penser à une autre résolution (indiquer l'ordre en qualifier ?). Pour le POC, on s'arrête là (et les données ont été rechargées sans ce fix). Je clos le ticket.