Recherche avec UV - Githubissues

Daniel-KM / Omeka-plugin-UniversalViewer

Plugin for Omeka that adds the IIIF specifications in order to act like an IIPImage server, and the UniversalViewer, a unified online player for any file. It can display books, images, maps, audio, movies, pdf, 3D views, and anything else as long as the appropriate extensions are installed.

Other

23 stars 20 forks source link

Recherche avec UV #36

Open JBPressac opened 6 years ago

JBPressac commented 6 years ago

Bonjour, Comment implémenter la recherche dans un document avec UV ? Autrement dit, sous quelle forme doit-être le texte dans lequel UV va faire des recherches ? Merci,

Daniel-KM commented 6 years ago

Bonjour,

Uv permet effectivement de faire des recherche sur les textes transcrits, mais le module n'implémente pas cette fonction, car il n'y a pas de champs standard (dcterms ou autre) pour le texte. Il faut donc modifier le manifeste (via un autre plugin qui utilise le filtre "uv_manifest", ou via un manifeste externe) pour intégrer le texte conformément aux spécifications iiif : http://iiif.io/api/presentation/2.1/#advanced-association-features. Il est possible également de modifier la configuration d'uv pour afficher le champ de recherche.

JBPressac commented 6 years ago

Merci pour votre réponse. Existe-t-il déjà des plugins qui modifieraient le manifeste pour y intégrer le texte ? Connaitriez-vous des logiciels ou des librairies qui permettraient de convertir des fichiers ALTO ou TEI, par exemple, en annotations IIIF ? Merci,

regisrob commented 6 years ago

A ma connaissance, pour la recherche plein-texte au sein d'un document (c'est-à-dire, au sens de IIIF, dans les annotations textuelles associées au Manifest) UV interagit avec un webservice qui doit être conforme à l'API Search de IIIF : http://iiif.io/api/search/1.0/ (comme dans cet exemple : https://d.lib.ncsu.edu/collections/catalog/nubian-message-1992-11-30). Il faudrait donc un plugin Omeka capable de générer ce service à partir de données textuelles (transcriptions en TEI, ou fichiers ALTO pour de l'OCR par ex.), et lier ce service au Manifest chargé par UV (en utilisant la propriété service de l'API Presentation : http://iiif.io/api/presentation/2.1/#service).

Pour info La Bodleian Library met à disposition des outils de conversion de fichiers METS et TEI vers IIIF (à tester...) : https://github.com/bodleian/dmt-metadata-transformation#conversion-of-tei-files.

JBPressac commented 6 years ago

Merci pour votre réponse @regisrob. Dommage que ces technos soient si compliquées à implémenter et qu'il soit nécessaire de passer d'un format de données à une autre. Espérons que le jeu en vaille la chandelle...

regisrob commented 6 years ago

Pas forcément évident à implémenter en effet, mais le fait de passer par un format commun sur lequel vont pouvoir s'appuyer tous les clients compatibles avec cette spec (Mirador, UV etc.) est indispensable à leur interopérabilité dans l'environnement IIIF. Sinon chaque client devrait être capable d'interpréter tous les formats potentiels de transcription ou d'océrisation existants, selon les domaines, selon les applications (ALTO, hOCR, PAGE, ABBYY XML, TEI et ses différentes "flavours" etc.).

Daniel-KM commented 6 years ago

Effectivement, le format iiif est en train de l'emporter sur les nouveaux outils (avec le format w3c annotation).

Comme la version Omeka S du plugin est très similaire, si le travail est fait sur cette version, cela sera une évolution durable. Sinon c'est sans doute une question de budget.

JBPressac commented 6 years ago

Merci pour vos réponses. Je note le lien avec le standard du W3C Web Annotations. Un des exemples d'utilisation de Web Annotations est le codage de commentaires et je trouve à priori curieux de considérer la transcription comme une forme de commentaire ou d'annotation, mais pourquoi pas. On trouve d'ailleurs dans un cas d'utilisation concernant la transcription du scan d'un manuscrit dans Embedding Web Annotations in HTML par le groupe de travail du standard.

m-art-in commented 5 years ago

Any progess here? You could use bibo:transcriptOf to store OCR or transcript. Would this be a solution or work around? Which php-files do I hav to modifiy for that? Only \modules\IiifServer\src\View\Helper\iifManifest.php or other file, too? Thanks for help and sorry for switching to English.