OCR per formule

La realizzazione di testi accessibili che sono disponibili in un formato non editabile (e.g., formati PDF e JPG) è l’operazione più difficile. In questa circorstanza, i software OCR (Optical Character Recognition) sono molto importanti per ottenere formati editabili da rendere accessibili.

Attualmente, esistono molti OCR in grado di lavorare su testi normali con prestazioni ottime. Inoltre, esistono molti studi e softare sul riconoscimente di formule scritte a mano in tempo reale. Tuttavia, il riconoscimento di formule scritte in tempo reale è un problema differente rispetto al riconoscimento di formule stampate in lunghi documenti. Infatti, nel caso di formule scritte in tempo reale, possono essere sfruttate informazioni aggiuntive, quali in movimento della mano che scrive, informazione non disponibile in documenti a stampa. Al momento, esiste un unico software in grado di processare interi documenti a stampa e riconsocere sia il testo che le formule. Tale OCR si chiama InftyReader ed è sviluppato da un consorzio di università giapponesi e realizzato proprio per la necessità di persone con disabilità visiva. Tuttavia, dal momento che esiste un unico OCR di questo tipo, la ricerca in questo campo non è ancora sufficientemente sviluppata e lo studio di questo argomento può aprire nuove frontiere di ricerca.

Un software OCR è composto da due componenti principali: un algoritmo di pattern recognition e un algoritmo di image segmentation. Il progetto ha lo scopo di sviluppare tali algoritmi finalizzati alla creazione di un OCR per il riconoscimento automatico di testo e formule. Stiamo sviluppando l’algoritmo di pattern recognition usando reti neurali artificiali. L’algoritmo di image segmentation sarà sviluppato usano metodi classici uniti alla logica fuzzy e studiando tecniche basate sul calcolo delle variazioni.