CRISalid-esr / svp-harvester

Sovisu+ publications harvester as microservice
Other
3 stars 2 forks source link

Remove / Filter from source data.idref notice de regroupement #569

Closed Francois-Mistral closed 2 months ago

Francois-Mistral commented 4 months ago

Filtrer les notices "Tr" pour améliorer la performance en réduisant le volume des requêtes et la redondance des résultats sans perte de résultats pertinents

Plusieurs options

1) ~~Filtrer sur le type frbr :Work ?doc ?role ?idref FILTER NOT EXISTS {?doc a frbr:Work}~~

2) Filtrer sur le type rdac:C10001 ?doc ?role ?idref FILTER NOT EXISTS {?doc a rdac:C10001}

3) Filtrer sur le fait que les uri des Tr sont en « www.idref.fr » ?doc ?role ?idref FILTER(!regex(str(?doc),"idref"))

jdp1ps commented 3 months ago

@Francois-Mistral Nous avons besoin d'éclaircissements. Par exemple cette notice de regroupement : https://www.idref.fr/215012070 semble faire doublon avec cette notice Sudoc : https://www.sudoc.abes.fr/cbs//DB=2.1/SET=4/TTL=91/SHW?FRST=91 Mais la première contient plus d'informations que la seconde, si on l'abandonne, on perd notamment la description.

Dans ce second cas http://www.sudoc.fr/158085965/id et https://www.idref.fr/211438146 : la notice idref est seule à contenir le sous titre en anglais.

Francois-Mistral commented 3 months ago

Soit la notice de regroupement : https://www.idref.fr/215012070

elle émane des 3 références Sudoc suivantes :

Dans le second exemple, idem, la notice https://www.sudoc.fr/158085965 apporte plus d'infos (dont le titre en anglais) que https://www.sudoc.fr/15808973.

Il n'y pas de perte, ni de gain car les données dans la notice de regroupement émane toutes des références Sudoc rassemblées.

Mais, à la réflexion, les notices de regroupement peuvent être des indicateurs de "doublons" ou "pseudo-doublons".

jdp1ps commented 3 months ago

La notice https://www.idref.fr/215012070.rdf contient en effet 3 assertions http://www.rdaregistry.info/Elements/m/#P30135 "has work manifested" qui pointent sur les 3 notices sudoc. Elles pourraient nous permettre d'identifier ces 4 notices comme identiques sans avoir besoin de les passer par le module de dédoublonnage.

jdp1ps commented 2 months ago

Les notices de regroupement ne seront pas écartées mais les identifiants/URI des notices sources (Sudoc etc...) seront conservées afin de traiter ces cas comme des doublons triviaux (i.e. des doublons pour lesquels on dispose d'un identifiant commun). @Francois-Mistral Cf. #599

jdp1ps commented 2 months ago

@Francois-Mistral FYI https://github.com/EuroCRIS/CERIF-ScholarlyPublicationsModule/issues/2