OCR per Mandriva

Salve a tutti,

avrei bisogno di un programma di Ocr per Mandriva
a cui dare in pasto Pdf e altri file (in italiano, francese
e inglese).

Cosa posso installare?

Grazie in anticipo

Anch’io un po’ di tempo fa ho cercato OCR da installare in OpenMandriva ma non ho trovato granché. Per quel che ricordo per Linux, e non solo per OpenMandriva, sono disponibili solo gocr e Tesseract.
Non dici quale versione di OpenMandriva stai usando e quindi non so se sono disponibili per l’installazione. Nella mia 2014.2 a 64 bit è possibile installare entrambi dalla Gestione Software.
Sempre se non ricordo male gocr lavora bene in accoppiata con Xsane (il programma di gestione dello scanner) e accetta diversi formati di immagine ma non è particolarmente efficiente nel riconoscimento dei caratteri.
Tesseract è più potente, era un programma della HP che l’ha reso open-source, ma è più difficile da usare e accetta solo immagini in formato tiff. Se non sono in questo formato puoi convertirle usando imagemagick.
Invece per convertire pdf non mi sembra ci sia bisogno di un OCR, basta semplicemente copiare il testo e incollarlo senza portarsi dietro le formattazioni.

I programmi indicati da @Giorgio sono i più utilizzati, però sono programmi da riga di comando. La decodifica del testo a partire da immagini non è un’operazione banael ed infatti per ottenere degli ocr di qualità non basta solo applicare uno di questi programmi, non perché siano scarsi, ma proprio per la complessità del processo. Un ruolo molto importante è svolto nella fase di pre-elaborazione del documento: l’immagine scansionata deve avere una buona risoluzione (consiglio almeno 600dpi a colori o scala di grigio come buon compromesso tra qualità e grandezza del file) ed in seguito elaborata (ad esempio spesso deve essere raddrizzata, bisogna calibrare i colori, ecc) ed infine conviene indicare all’ocr solo le parti da elaborare (in modo da risparmiare tempo). Infine al temine del processo è necessaria una revisione manuale per eliminare gli errori di ortografia.

Ovviamente puoi fare molte di queste operazioni da terminale (ad esempio con imagemagick, unapper ed altri strumenti) o utilizzare applicazioni grafiche che ti guidano nel processo (spesso si tratta appunto di interfacce grafiche agli strumenti testuali). Se OpenMandriva è presente gscan2pdf. Una versione più aggiornata la puoi trovare nel mio repo personale insieme ad altri programmi dello stesso genere non (ancora) presenti nei repo ufficiali già pacchettizzati per architettura x86_64: gimagereader (non ancora funzionante ma spero di provvedere a breve ;)) lios, e scantailor. Personalmente ti consiglio di provare proprio scantailor.

[quote=“mandian, post:3, topic:770”]
I programmi indicati da @Giorgio sono i più utilizzati, però sono programmi da riga di comando.
[/quote]Non uso da un po’ questi programmi, ma se non ricordo male entrambi possono essere usati direttamente da Xsane.
Con gocr basta solo installarlo.
Invece per tesseract la faccenda è un po’ più complicata, c’è di mezzo un file eseguibile che converte il file generato dalla scansione e lo fa interpretare a tesseract. Può valere la pena di affrontare la maggiore complessità per la migliore qualità del risultato.
Per il resto sottoscrivo quello che dici.
Ho trovato interessanti anche i pacchetti citati che non conoscevo e che proverò appena ho un po’ di tempo

Guarda se pdfsandwich puo essere utile:
http://www.tobias-elze.de/pdfsandwich/

1 Like

Non lo conoscevo ma pare interessante. Anche se non l’ho ancora provato, l’ho aggiunto al mio repo personale cpsì se qualcuno vuole provarlo trova già il pacchetto pronto. Faccio solo notare che pdfsandwich utilizza come OCR teseract (>= 3.03l) oppure hocr da exact-image. Poiché nei repo c’è solo la versione 3.02.03, ho fatto richiesta di aggiornamento. Altrimenti trovate tutto nel mio repo personale.

Mandian,

hocr2pdf si trova in exact-image di ExactCODE:
http://exactcode.com/opensource/exactimage/
Il tarball del source code lo trovi qui:
http://dl.exactcode.de/oss/exact-image/
Un ‘vecchio’ SRPM (Mandriva 2011) lo trovi qui:
http://ftp.nluug.nl/os/Linux/distr/mandrakeclubnl/2011/SRPMS/exact-image-0.8.7-1.src.rpm
Oppure: http://rpm.pbone.net/ e ‘exact-image-0.’ come il termine di ricerca.

A partire dal mio repo personale puoi trovare l’ultima versione per tutte le versioni supportate OpenMandriva :wink:. Come detto sopra non ho ancora avuto modo di provarlo e ma dovrebbe funzionare.

Grazie Mandian per i RPM’s.

PDFSandwich lo ho provato con Ubuntu. La qualitia di del riconoscimento OCR dipende dal pdf.