Il Modulo IIIF OCR & Transcription permette di ricercare parole all’interno del testo estratto, di navigare attraverso i risultati, di selezionare un testo, visualizzando le parole corrispondenti sull’immagine.
IIIF OCR & Transcription
Cerca tutto quello che ti serve nei tuoi documenti digitalizzati
- Integrazione di DSpace con un software OCR Optical Character Recognition
- Rappresentazione del formato hOCR per l’indicizzazione fulltext
- Supporto multilingua nativo con possibilità di estensione
- Possibilità di lavorare online alle trascrizioni manuali
- ... e molto altro!
Screenshots
IIIF OCR: l'integrazione con gli OCR e con il IIIF Image Viewer
L’analisi di un testo è molto importante per lo studio, l’analisi dei documenti e anche per una divulgazione assistita dei suoi contenuti. Per questo, prima di tutto, abbiamo integrato DSpace con un software OCR esterno. Il software open source Tesseract è quello che proponiamo ma la piattaforma prevede la possibilità di integrare anche altri motori OCR molto diffusi.
Tesseract supporta una varietà molto ampia di lingue e caratteri:
- alfabeti latini (italiano, francese, spagnolo, tedesco),
- la scrittura da destra a sinistra (arabo) e ideografica (cinese)
- lingue slave (russo, polacco, …)
- hindi e molte altre lingue.
Il motore OCR può anche essere istruito con i file di training personalizzati per riconoscere caratteri e lingue specifiche.
Molto utile è la possibilità di effettuare ricerche all’interno delle immagini evidenziando con un colore i termini della ricerca sull’immagine stessa (highlighting). Il risultato è la possibilità di rintracciare con facilità quanto abbiamo cercato. L’integrazione fra i nostri moduli IIIF OCR e IIIF Image Viewer ci permette, inoltre, di navigare fra i risultati, in modo semplice e fluido.
Ultima nota tecnica: utilizzando la rappresentazione del testo estratto in formato standard hOCR è possibile l’indicizzazione full-text nel motore di ricerca di Dspace (SOLR).