Convertire un testo acquisito da scanner in testo utilizzabile
E' possibile - mediante semplici software gratuiti - ottenere un testo utilizzabile (editabile) a partire da un testo in formato immagine.
Questa necessità si ha sempre quando si acquisice una pagina da scanner (oppure se si trova una immagine di un testo in rete, o magari un file PDF non copiabile) e si vuole includere il testo in un nostro elaborato.
Per convertire una immagine in testo occorrerebbe un software del tipo OCR, ossia di "riconoscimento carattere" (molto spesso fornito assieme allo scanner) ma non sempre è disponibile.
La soluzione che vi propongo mi è servita in ufficio (dove c'è lo scanner ma non l'OCR) e ve la suggerisco come soluzione completa, con alcuni passaggi che portano al testo in Word (nel mio caso, è il programma che uso in ufficio) o in un altro editore di testi.
Ecco il grafico del mio metodo, non spaventatevi perché è più semplice e veloce di quanto sembri. Vi dirò se e come potete saltare dei passaggi.

Acquisizione immagine
Acquisire l'immagine della pagina da scanner e scegliere - se possibile -il formato jpg (jpeg), altrimenti va anche bene pdf. (Nel mio caso, si trattava di una fotocopiatrice multifunzione che mi invia il file scansito in formato pdf sulla mia casella mail).
Ritaglio e salvataggio jpg del testo da riconoscere
Se si è acquisita l'immagine jpg già con il testo preciso che ci interessa, si può saltare questo passo.
Altrimenti, aprire l'immagine acquisita:
- se è jpg, con un software di modifica immagini (va bene anche PaintBrush, ma io consiglio Irfanview),
- se è pdf, con Adobe Reader (o un altro software di lettura pdf, ad esempio su Windows Foxit Reader; Su Linux ci sono diversi lettori normalmente installati).
Selezionare la parte di immagine che ci interessa e incollarla in un software di modifica immagini (in Irfanview, basta aprire il programma e eseguire "Ctrl-V" o cliccare il tastino incolla).
Se necessario, ruotare l'immagine in modo che il testo si veda in orizzontale. (In Irfanview basta cliccare "R" per "orario" e "L" per "antiorario").
A questo punto salvare l'immagine in formato JPG.
Riconoscimento del testo
Questa è la parte fondamentale: mi servo di un sito che fa il riconoscimento caratteri tramite un software ancora sperimentale: OCRopus. Il sito riceve un file jpeg e restituisce un testo. Per ora solo in inglese.
Aprire il browser alla pagina web: http://demo.iupr.org/ocropus/
Cliccare sul tastino Browse e fornire il nome del file formato jpg appena salvato.
Cliccare il tasto submit.
Aspettare.
Dopo un po' comparirà una pagina con il testo riconosciuto.
Copiare il testo (Ctrl-C).
Nota
A questo punto ci si può fermare perché abbiamo il nostro testo. Il passaggio successivo è (per testi lunghi) una facilitazione per non dover cancellare gli "a capo", con i quali ci è stato fornito il testo nel passaggio precedente.
Installare (se non lo si ha ancora) Line Recomposer 2.0
Passaggio da saltare se si già installato, ovviamente.
Line Recomposer 2.0 è un bel programma di Davide Archetti che fa una cosa semplice ma importante: elimina gli a capo da un testo.
Per installare, basta cliccare il link Line Recomposer 2.0 sulla pagina che vi ho indicato, salvare il file linecomp2.zip, estrarlo in una cartella e eseguire Linecomp2.exe (non occorre nessun "Setup", e quindi il programma non "sporca" il PC!).
Eliminare a capo con Line Recomposer
Avviare Line Recomposer, e nella finestra di Line recomposer incollare il testo ottenuto al passaggio (N). Cliccare "Recompose Lines". Selezionare tutto e copiare.
Incollare il testo in Word o altro programma.
Beh vi risparmio questa parte. Credo lo sappiate fare!
Cosa è OCRopus
E' un progetto di software per il riconoscimento dei caratteri, gratuito ed Open Source, gestito tramite il sistema di gestione progetti software Google Code.
Blogged with Flock
- blog di ricir
- 4426 letture










...
Solo una domanda sperando che in agosto vedrai questo post e potrai rispondere.
Quando spieghi il pezzo in cui si salva il documento in file jpg ti riferisci generalmente oppure dello stesso file jpg selezionare un ulteriore pezzo di riferimento?
Immagina che io ho una pagina intera scannarizzata e la sto mettendo così su questo programma online di cui gentilmente hai fornito l'indirizzo...quindi aspetto delucidazioni
gracias
dè
Jpg per Ocropus
Devi fare in modo di selezionare una zona con solo testo, orizzontale e "pulito".
Direi, quindi, che se sono due colonne per esempio ti conviene selezionare una colonna per volta.
Riccardo
Non funziona piu il link!
Salve ragazzi, sto provando la vostra guida.. Ma il link al programma OCR non va!
Questo: http://demo.iupr.org/ocropus/
che è successo ?
a me funziona
ho provato or ora e funziona, funziona anche a te? o che errore ti dà?
Ocropus
Anche io arrivo regolarmente alla pagina di Ocropus.
Riccardo
Grazie mille di aver segnalato Line Recomposer 2.0!
Carissimo Riccarco,
grazie mille per aver segnalato Line Recomposer 2.0!
Ho già iniziato a vedere, nelle statistiche del mio sito, un certo numero di visitatori provenienti da qui che hanno scaricato Line Recomposer 2.0. Sono contento che il mio programmino, nato per uso personale e reso "quasi presentabile" migliorando la GUI in un secondo tempo, sia utile nella procedura che descrivi.
Buona giornata e grazie ancora!
Davide
Line Recomposer
Per me è diventato d'uso comune. L'altro ieri dovevo copiare da più righe in una mail a una unica cella di Excel. Copiando normalmente, le varie righe finivano in varie celle. Line Recomposer ha messo tutto a posto (copiano prima in Line Recomposer, e giocando opportunamente con l'opzione del punto e da capo, e ricopiando poi a Excel).
A me funziona bene anche la
A me funziona bene anche la procedura:
scansione -> pdf (immagine) -> invio alla mia stessa casella gmail -> apro email -> visualizza in html e ottengo il testo :-) !
Provare per credere!
Grande
Non sapevo. Notevole, vuol dire che Google fa un OCR.
Ho provato ora, ma col mio testo non è andato, forse perché sulla stessa pagina c'era una immagine.
Riccardo
Ottimo!
Ottimo!
Invia nuovo commento