IIIF OCR & Transcription

Cerca tutto quello che ti serve nei tuoi documenti digitalizzati

  • Integrazione di DSpace con un software OCR Optical Character Recognition
  • Rappresentazione del formato hOCR per l’indicizzazione fulltext
  • Supporto multilingua nativo con possibilità di estensione
  • Possibilità di lavorare online alle trascrizioni manuali
  • ... e molto altro!

Il Modulo IIIF OCR & Transcription, attraverso il set di API IIIF,  permette di ricercare parole all’interno del testo estratto, di navigare attraverso i risultati, di selezionare un testo, visualizzando le parole corrispondenti sull’immagine.

Screenshots

IIIF OCR: l'integrazione con gli OCR e con il IIIF Image Viewer

L’analisi di un testo è molto importante per lo studio, l’analisi dei documenti e anche per una divulgazione assistita dei suoi contenuti. Per questo, prima di tutto, abbiamo integrato DSpace con un software OCR esterno. Il software open source Tesseract  è quello che proponiamo ma la piattaforma prevede la possibilità di integrare anche altri  motori OCR molto diffusi.

Tesseract supporta una varietà molto ampia di lingue e caratteri:

  • alfabeti latini (italiano, francese, spagnolo, tedesco),
  • la scrittura da destra a sinistra (arabo) e ideografica (cinese)
  • lingue slave (russo, polacco, …)
  • hindi e molte altre lingue.

Il motore OCR può anche essere istruito con i file di training personalizzati per riconoscere caratteri e lingue specifiche.

Molto utile è la possibilità di effettuare ricerche all’interno delle immagini evidenziando con un colore i termini della ricerca sull’immagine stessa (highlighting). Il risultato è la possibilità di rintracciare con facilità quanto abbiamo cercato.  L’integrazione fra i nostri moduli IIIF OCR e IIIF Image Viewer  ci permette, inoltre, di navigare fra i risultati, in modo semplice e fluido.

Ultima nota tecnica: utilizzando la rappresentazione del testo estratto in formato standard hOCR è possibile l’indicizzazione full-text nel motore di ricerca di Dspace (SOLR).

Con un’ulteriore estensione di IIIF OCR & Transcription è possibile avere a disposizione anche le web annotation.

 

Altri moduli:

CKAN Integration

Il Research Data Management per il tuo DSpace.

IIIF Image Viewer

Uno standard internazionale per la gestione delle collezioni di immagini.

Document Viewer

Visualizza, accedi e gestisci documenti completi.

Video/Audio Streaming

Semplifica l’accesso ed il riutilizzo dei contenuti audio/video.

Altre soluzioni