Cas d’usage n° 4 : Intégrer un contenu textuel à un Manifeste IIIF
Prérequis :
- IIIF Server
- Médias xml-alto (version 4 et plus)
Si vous disposez de fichiers de transcription (issus d’un OCR ou d’une transcription automatisée) que vous avez associés à vos images, leur contenu peut être également embarqué dans le Manifeste IIIF dans une section particulière. Il n’est en effet pas recommandé d’intégrer les contenus de textes transcrits au niveau des métadonnées génériques du document, qui doivent rester purement descriptives.
Cette option ne concerne que les médias au format xml-alto, et dépend du module IIIF Server.
Bon encodage Par ailleurs, nous vous recommandons également de veiller au bon encodage du contenu dans les xml-alto, en UTF-8, afin qu’il soit correctement rendu par différents systèmes. Une coche au niveau du paramétrage d’IIIF Server permet de s’en assurer :

Idéalement, à chaque fichier image (contenant du texte) doit correspondre un fichier xml-alto, et leurs noms doivent être identiques, à l’exception de l’extension fichier. Exemple: cote_document_0002.jpg et cote_document_0002.xml pour la page 2 du document.
La correspondance entre images et fichiers xml-alto doit
aussi être précisée dans les paramètres de ce
module :
Sur cet exemple, les xml-alto ont tous été importés après les fichiers image : la correspondance ne peut s’effectuer que sur leur nom.
Le module se charge d’ouvrir et de lire chaque fichier (opération similaire à celle du module Iiif Search). Lors de la génération du manifeste de la ressource, IIIF Server ajoute une annotation pour chaque ligne de texte identifiée dans le fichier xml-alto. Chaque annotation contient le texte sous forme de chaîne de caractères brute, ainsi que sa position sur l’image. ::: info Si l’on utilise également la visionneuse Mirador et son plugin Text Overlay, ce contenu peut être affiché en surbrillance, ainsi qu’en regard de l’image dans un volet latéral.
:::
Les annotations sont regroupées en une liste, que l’on peut retrouver dans la section “otherContent” de chaque canevas. Contrairement à Iiif Search, IIIF Server permet ainsi d’enregistrer durablement le contenu textuel dans le manifeste.

À noter : IIIF Server ne propose cette option que pour l’API Presentation 2.
Obtenir des fichiers xml-alto à partir de pdf Si le document comprend un seul fichier pdf pour son ensemble, le module Extract Ocr est en mesure de fournir un unique fichier alto et/ou tsv. Toutefois, il ne peut pas proposer un fichier xml-alto par page.
Si le document comprend un fichier pdf par page et que le module Extract Ocr ne fonctionne pas, il est possible d’utiliser le programme linux pdfalto pour obtenir chaque fichier xml-alto correspondant. La page Github d’installation se trouve ici : https://github.com/kermitt2/pdfalto.