![]() 3.869.491 | ![]() |
Questa applicazione consente di estrarre testo da immagini e PDF scansionati lavorando direttamente nel browser. Il documento viene letto sul dispositivo dell'utente e non viene caricato su un servizio esterno di OCR.
Al primo utilizzo il browser puo' scaricare le librerie necessarie e i dati lingua di Tesseract.js; successivamente potra' riusarli dalla cache.
Per iniziare trascina un documento nell'area di caricamento oppure fai clic sul riquadro e scegli un file dal tuo computer. Sono pensati per questo strumento i PDF scansionati e le immagini in formato comune, come PNG, JPG, JPEG e WEBP. Dopo avere scelto il file, imposta la lingua del documento e premi Estrai testo. Se il documento e' un PDF con piu' pagine, l'app lo elabora progressivamente: durante il lavoro vengono mostrati fase, pagina corrente, tempo trascorso e avanzamento complessivo.
Terminata l'estrazione, puoi sfogliare il documento con i pulsanti Indietro e Avanti, oppure scrivere direttamente il numero della pagina da visualizzare. A sinistra trovi l'anteprima della pagina, a destra il testo riconosciuto. Il testo e' modificabile: puoi correggere errori, ripristinare accenti, sistemare nomi propri o eliminare intestazioni e pie' di pagina prima di copiare o scaricare il risultato finale.
I pulsanti in fondo agiscono sull'intero documento. Copia mette negli appunti tutto il testo estratto, comprese le correzioni fatte pagina per pagina. TXT scarica un file di testo semplice, MD crea un file Markdown con un titolo iniziale, TXT per IA aggiunge una nota di cautela utile quando il testo deve essere incollato in un assistente linguistico, mentre Pulisci azzera file, anteprima, risultati e stato dell'elaborazione.
Il documento selezionato viene letto dal browser sul dispositivo dell'utente. Non viene caricato su un server di OCR e non viene inviato a servizi esterni per il riconoscimento del testo. Il file PHP serve soltanto a mostrare l'interfaccia: la lettura del PDF, il rendering delle pagine e l'OCR vengono eseguiti lato browser.
Al primo utilizzo puo' essere necessaria una connessione a Internet per scaricare le librerie JavaScript usate dall'app e i dati lingua di Tesseract.js. Dopo il primo caricamento, il browser puo' riutilizzare parte di questi file dalla cache. Questo significa che il documento resta locale, ma le componenti tecniche necessarie all'OCR possono essere recuperate dalla rete se non sono gia' disponibili nel browser.
Non tutti i PDF sono uguali. Alcuni PDF contengono gia' testo selezionabile: in questi casi e' spesso meglio estrarre direttamente quel testo, perche' il risultato e' piu' veloce e di solito piu' fedele rispetto all'OCR. Per questo l'opzione Prova prima il testo nativo dei PDF e' attiva di default.
Quando invece una pagina non contiene testo selezionabile, oppure ne contiene troppo poco, l'app renderizza la pagina con PDF.js come immagine e la passa a Tesseract.js per il riconoscimento ottico. Nei PDF misti puo' quindi accadere che alcune pagine vengano lette direttamente e altre vengano sottoposte a OCR. Questa scelta pagina per pagina riduce i tempi e limita gli errori inutili.
La qualita' PDF regola la risoluzione con cui una pagina viene trasformata in immagine prima dell'OCR. Normale consuma meno memoria ed e' piu' veloce; Alta e' il compromesso consigliato; Molto alta puo' aiutare con caratteri piccoli o scansioni poco nitide, ma richiede piu' memoria e puo' rallentare molto l'elaborazione.
L'OCR non e' una trascrizione garantita. La qualita' dipende da risoluzione, contrasto, inclinazione della pagina, ombre, timbri, pieghe, qualita' della scansione, font, colonne, tabelle e presenza di firme o annotazioni. Anche un risultato apparentemente buono puo' contenere errori su lettere simili, accenti, punteggiatura, spazi, importi, date, numeri di protocollo e riferimenti normativi.
L'opzione Migliora contrasto prima dell'OCR applica una pre-elaborazione leggera dell'immagine. In molti casi aiuta con scansioni grigie o poco contrastate; in altri casi, soprattutto su immagini gia' molto pulite o su documenti con sfondi particolari, puo' non migliorare il risultato. Se il testo ottenuto e' peggiore del previsto, prova a ripetere l'estrazione disattivando questa opzione.
Per ottenere risultati migliori conviene partire da scansioni dritte, leggibili e con buona risoluzione. Se possibile evita fotografie storte, pagine tagliate, documenti molto compressi e immagini con forte ombra. Per documenti lunghi e pesanti puo' essere utile dividere il PDF in parti piu' piccole oppure usare una qualita' PDF piu' bassa, cosi' da ridurre il consumo di memoria del browser.
Prima di usare il testo in atti, comunicazioni, ricerche giuridiche, conteggi, riassunti o analisi ufficiali, rileggi sempre il risultato confrontandolo con l'anteprima della pagina originale. I punti piu' delicati sono nomi propri, indirizzi, codici fiscali, numeri di sentenza o protocollo, date, importi, percentuali, articoli di legge e citazioni testuali.
Il pulsante TXT per IA crea un file di testo pensato per essere incollato in un assistente linguistico. Prima del testo OCR viene aggiunta una nota che avverte il modello dei possibili errori tipici del riconoscimento automatico: lettere confuse, righe spezzate, tabelle linearizzate male, intestazioni mescolate al corpo del testo e dati numerici da verificare.
Questa intestazione non corregge il documento, ma aiuta l'assistente a trattare il contenuto con prudenza. E' particolarmente utile per chiedere riassunti, schemi, estrazione di punti principali, bozze di risposta o classificazioni preliminari. Resta comunque opportuno controllare manualmente il testo OCR prima di chiedere analisi delicate, soprattutto se il documento contiene informazioni personali che sarebbe opportuno eliminare.
In generale e' meglio separare le fasi: prima estrai il testo, poi correggi le parti piu' importanti confrontandole con l'anteprima, infine usa il testo revisionato con eventuali strumenti di analisi. In questo modo riduci il rischio che un errore OCR venga interpretato come informazione corretta.
ATTENZIONE! il fatto che il testo sia stato riconosciuto localmente nel tuo browser non significa che caricarlo su un servizio online sia automaticamente sicuro. Nel momento in cui incolli o carichi il contenuto su ChatGPT, Claude, Gemini o simili, i dati possono essere conservati ed elaborati sui server del fornitore. Se il testo contiene nomi di persone, indirizzi, numeri di telefono, dati sanitari, dati bancari, riferimenti a procedimenti giudiziari, contenuti coperti da segreto professionale o qualsiasi altro dato personale o riservato, sei tu, e solo tu, che hai la responsabilità di decidere se anonimizzarli prima del caricamento, oppure se utilizzare soluzioni che garantiscano un trattamento conforme: servizi con accordo di trattamento dei dati firmato, account aziendali con clausola di non addestramento sull'input, oppure modelli ospitati su infrastrutture controllate. Questo strumento non invia nulla al tuo posto e non sostituisce il tuo giudizio professionale: il caricamento è una scelta tua e ne sei pienamente responsabile, anche ai fini della normativa sulla protezione dei dati personali e degli obblighi di riservatezza propri della tua professione.
Quanto ritieni utile questo strumento?
4/5 (2 voti)
©2013-2026 Diritto Pratico - Termini di Servizio e informativa sul trattamento dei dati - Assistenza
pagina generata in 0.003 secondi in data 14 maggio 2026 (IUG:1L-991D31) - 2791 utenti online