OCR & Transcription

Cerca tutto quello che ti serve nei tuoi documenti digitalizzati

  • Integrazione di DSpace con un software Optical Character Recognition;
  • Rappresentazione del formato hOCR per l’indicizzazione fulltext in SOLR;
  • Supporto multilingual nativo con possibilità di estensione;
  • Possibilità di lavorare online alle trascrizioni manuali;
  • E molto altro!

Screenshots

Il codice attualmente disponibile

Il modulo OCR consente l’integrazione di DSpace con un software di OCR esterno. Out-of-box il modulo supporta il motore OCR Open Source Tesseract (https://github.com/tesseract-ocr). Per ogni immagine un curation task consente di estrarne la sua rappresentazione testuale in formato hOCR, e semplice per l’indicizzazione fulltext in SOLR. Tesseract supporta un set molto esteso di lingue tra cui: italiano, francese, spagnolo, tedesco, arabo, cinese semplificato e tradizionale e molti altri (https://github.com/tesseract-ocr/langdata). E’ inoltre possibile istruire il motore OCR con file di training personalizzati per font e lingue specifiche.

In presenza del modulo IIIF Image Viewer, il modulo OCR fornisce inoltre supporto per le IIIF Search API mediante un componente server PHP, soggetto ai medesimi termini di licenza del modulo. Le IIIF Search API consentono l’attivazione della funzionalità search inside nel visualizzatore IIIF con ricerca all’interno delle immagini, navigazione tra i risultati ed highlighting sull’immagine dei testi OCR corrispondente ai termini di ricerca specificati. Il motore di ricerca interno prevede inoltre il suggerimento dei termini durante la digitazione.

Guarda come funziona

Live demo

I nostri servizi

Servizi

Le funzionalità che vorremmo sviluppare grazie anche al tuo supporto

  • Possibilità di sostituire file OCR ottenuti automaticamente tramite UI dedicata;

  • In copresenza del modulo IIIF Image Server il sistema consentirà l'editing sull'immagine dell'OCR catturando le informazioni posizionali. L'editing dell'OCR sarà disponibile anche in assenza di un file OCR di partenza consentendo la trascrizione online dei testi;

  • Un workflow di approvazione delle trascrizioni consentirà una gestione decentralizzata ma controllata del processo.

Contributo minimo richiesto per accesso al codice ed utilizzo del Modulo: €3.000
Condividi con noi le tue preferenze su quali di queste funzionalità dovrebbe essere sviluppata prima.

Make IT open!

Target budget: €75.000
0%

Accesso e utilizzo: €3.000

Altri moduli:

CKAN Integration

Il Research Data Management per il tuo DSpace.

IIIF Image Viewer

Uno standard internazionale per la gestione delle collezioni di immagini.

Document Viewer

Visualizza, accedi e gestisci documenti completi.

Video/Audio Streaming

Semplifica l’accesso ed il riutilizzo dei contenuti audio/video.

Altre soluzioni