Cas d’usage n° 3 : Recherche plein texte dans une visionneuse
Prérequis :
- Installation module Universal Viewer ou module Mirador Viewer
- Module IIIF Search
- Fichiers de transcription (alto ou tsv)
- IIIF Server
Si vos images IIIF représentent un texte et que vous disposez de ce contenu textuel dans des fichiers de transcription (issus d’un OCR ou d’une transcription automatisée) vous pouvez les associer à vos images et ainsi bénéficier de la recherche plein texte au niveau de la visionneuse publique.
La recherche plein texte est rendue possible par le module IIIF Search, développé par Sylvain Machefert et Daniel Berthereau. Ce module interroge les fichiers de transcription texte (xml-alto ou tsv) importés comme médias.
Son fonctionnement consiste à ouvrir les fichiers, lire le contenu textuel et rassembler toutes les occurrences du terme recherché (avec numéro du canevas et position sur l’image) pour que la visionneuse les affiche dans un volet à part. Pour l’heure, il ne peut traiter qu’une seule expression à la fois ; il n’est pas adapté à la recherche de co-occurrences.
Ce module exploite l’API IIIF Content Search, dont la spécification se trouve sur https://iiif.io/api/search/.
Lorsqu’il écrit le manifeste, le module IIIF Server vérifie l’activation de Iiif Search, et, le cas échéant, inscrit une section dédiée à l’API Content-Search dans la section “service”:
À noter : Iiif Search ne fonctionne qu’avec des manifestes d’API Presentation 2.
L’option de la recherche plein texte peut se présenter différemment selon les visionneuses :



Iiif Search accepte trois cas de figure pour les médias : 1. 1 fichier xml-alto par page ; importez-les comme médias avec un nom identique aux fichiers image, extension exceptée. 2. 1 fichier xml-alto pour l’ensemble du document ; 3. 1 fichier tsv pour l’ensemble du document.
Dans tous les cas, la correspondance entre fichier image et fichier texte doit être renseignée dans le paramétrage du module.
Si le manifeste IIIF a été créé ailleurs, puis importé dans votre installation (voir cas d’usage n°2), la recherche plein texte fonctionnera à condition que ce manifeste ait été associé à l’API IIIF Content Search, que ce soit via le module IiifSearch, ou tout autre service. Pour le vérifier rapidement, regarder si cette API est mentionnée au premier niveau du Manifeste.
Recherche plein texte hors de la visionneuse
La recherche décrite précédemment s’appuie sur les possibilités de IIIF mais reste cantonnée au document et à sa visionneuse. Si vous souhaitez proposer une recherche plein texte sur vos ressources depuis les moteurs de recherche de votre instance, vous devez paramétrer ces derniers.
Avec le moteur de recherche d’Omeka
Il est possible d’intégrer un fichier alto ou tsv à l’indexation générale depuis les Paramètres généraux de l’installation, en cochant les deux cases suivantes :
Dès lors, si l’expression entrée en barre de recherche générale est identifée dans le texte intégral d’un Contenu, celui-ci apparaîtra parmi les résultats de la recherche. Toutefois, Omeka ne fournit qu’un rebond sur le document concerné dans son intégralité, et non directement sur la page où l’expression apparaît.
Avec Solr
Solr permet de définir un index alimenté par le contenu des fichiers alto stockés dans les médias. Voici le champ défini dans la liste des index, ici “Content”:
Et l’interface de paramétrage de l’index (accessible par l’icône “crayon”), ici, le contenu du champ est rempli à partir des fichiers Alto :