Trascrizione audio in locale

Questa applicazione consente di trasformare registrazioni, messaggi vocali e dettati in testo lavorando direttamente nel browser. La trascrizione è basata su Whisper, un modello di riconoscimento vocale che viene eseguito localmente sul computer dell'utente.

Il file audio resta sul dispositivo: viene letto, preparato e trascritto nel browser, senza essere caricato su un servizio esterno di trascrizione.

Trascrivi audio riservati

Guida all'utilizzo

Whisper è una famiglia di modelli di riconoscimento vocale sviluppata originariamente da OpenAI. In pratica, è un sistema di intelligenza artificiale addestrato ad ascoltare un audio e trasformarlo in testo. Riconosce molte lingue, compreso l'italiano, e gestisce abbastanza bene accenti, parlato naturale e punteggiatura.

Il vantaggio principale, in questa applicazione, è che Whisper può funzionare direttamente nel browser. Questo consente di ottenere una trascrizione senza inviare il file audio a un servizio esterno perché tutto il lavoro viene svolto dal computer dell'utente, usando le risorse disponibili in quel momento.

1. Scegli uno o più file audio. Puoi caricare una registrazione, un messaggio vocale, una telefonata, un dettato o più file ricevuti dal cliente. Gli audio vengono accodati e preparati localmente nel formato richiesto dal modello di trascrizione. Puoi anche trascinare altri file mentre lavori: verranno aggiunti alla coda.

Seleziona cartella audio. Questa opzione è pensata soprattutto per cartelle dense di vocali, ad esempio una chat WhatsApp esportata con i relativi media. Nei browser compatibili (Chrome ed Edge aggiornati) l'app può chiederti il permesso di leggere una cartella del computer, scansionarla anche nelle sottocartelle, individuare i file audio e controllare se accanto a ciascuno esiste già una trascrizione TXT con lo stesso nome. Gli audio senza TXT vengono messi in coda da trascrivere; quelli con TXT già presente vengono comunque caricati in coda come completati, così puoi consultarli, scaricarli, inserirli nel Markdown unico per IA o aprirli in revisione. Al termine di ogni nuova trascrizione, se il file proviene da una cartella selezionata, il TXT viene salvato automaticamente nella stessa posizione dell'audio originale.

Riordinare la coda. Prima di avviare la trascrizione puoi scegliere solo tra Data e Nome, in senso crescente o decrescente. Con Data l'app usa automaticamente la data scritta nel nome del file quando la riconosce, ad esempio WhatsApp Ptt 2026-05-31 at 09.25.56; se non trova una data nel nome usa come fallback la data del file. Con Nome usa l'ordine alfabetico dei nomi dei file. Puoi anche trascinare manualmente le righe della coda per sistemare l'ordine finale: lo stesso ordine viene usato quando scarichi il Markdown unico per IA.

Riprocessare una cartella. Se ti accorgi che il modello o il motore scelto hanno prodotto risultati scadenti, puoi usare "Riprocessa" sulla singola riga oppure "Riprocessa coda" per rimettere tutti gli audio in lavorazione. In questo caso il TXT esistente non viene considerato definitivo: al completamento della nuova trascrizione viene riscritto con il risultato aggiornato.

2. Scegli il modello. L'opzione predefinita è Whisper small italiano: è il compromesso più affidabile, funziona sulla maggior parte dei PC, pesa circa 250 MB e dopo il primo download resta nella cache del browser. Se hai un PC recente con scheda grafica dedicata e abbondante memoria, puoi provare Whisper large turbo: è la famiglia di modelli usata dai servizi professionali e restituisce trascrizioni più accurate, ma richiede circa 800 MB di download e molta memoria, e su computer più modesti può fallire. Whisper base è la rete di sicurezza per PC datati o quando le altre opzioni esauriscono la memoria.

3. Avvia la trascrizione. L'elaborazione avviene in un processo separato della pagina, così l'interfaccia resta utilizzabile. La coda lavora sempre su un file alla volta, in modo da non sovraccaricare memoria e processore; appena un audio è pronto, i pulsanti di download compaiono nella relativa riga. Mentre la coda continua puoi cliccare sulle righe già elaborate per vedere l'anteprima del testo, ascoltare l'audio originale o scaricare i risultati. La revisione assistita, invece, è disponibile quando la coda è in pausa o completata, così le correzioni non interferiscono con il file in elaborazione.

4. Esporta o procedi alla revisione. Una volta completata la trascrizione, puoi copiare il testo o scaricarlo come TXT/SRT. Il nome del TXT riprende quello dell'audio originale cambiando solo l'estensione, ad esempio PTT-2026-05-20-WA0001.opus diventa PTT-2026-05-20-WA0001.txt. In alternativa, cliccando "Procedi con la revisione" si apre una finestra di riascolto guidato in cui puoi ascoltare l'audio originale e correggere il testo segmento per segmento. La trascrizione automatica è una bozza: nomi propri, parole tecniche, audio disturbato e frasi sovrapposte possono richiedere un controllo umano.

Modalità revisione assistita

Quando la trascrizione è terminata compare nel toolbar dell'output un pulsante blu "Procedi con la revisione". Cliccandolo, l'interfaccia di trascrizione lascia spazio a un ambiente di riascolto e correzione.

L'area di lavoro è divisa in due colonne. A sinistra trovi la trascrizione automatica originale, riga per riga, ognuna preceduta dal suo timestamp. A destra trovi la stessa trascrizione in una serie di caselle modificabili, una per segmento. Mentre ascolti l'audio, la riga in riproduzione si evidenzia con un fondo giallo tenue e un bordo colorato sulla colonna di sinistra, così sai sempre a che punto del testo corrisponde la voce. La pagina scorre da sola per tenere visibile la riga corrente. Se vuoi saltare a un punto specifico, basta cliccare sul testo della colonna sinistra: l'audio salta a quel segmento e parte la riproduzione.

In alto la barra di controllo include un grande pulsante centrale di play e pausa, frecce per saltare al segmento precedente o successivo, due pulsanti per saltare avanti o indietro di tre secondi (utili quando hai sentito male l'ultima parolina), una checkbox "Loop segmento" che ripete in continuo il segmento corrente finché non la disattivi, un selettore di velocità da 0,5x a 2x (la velocità ridotta 0,75x è preziosa con voci concitate o legalese mormorato) e un cursore del volume. Sotto compare la barra di scorrimento dell'audio cliccabile e trascinabile, con tempo corrente e durata totale.

La caratteristica chiave per chi rivede testo è la pausa automatica, attiva di default tramite la spunta in fondo alla barra audio. Quando è attiva, l'audio si ferma da solo non appena porti il mouse sopra una casella editabile o cominci a scrivere in essa. Riprende da solo solo quando contemporaneamente il mouse è fuori dall'area editabile da almeno due secondi, la tastiera è ferma da almeno due secondi e nessuna casella ha il focus. In pratica puoi ascoltare a flusso continuo: nel momento in cui ti accorgi di un errore ti basta posare il mouse sul punto che vuoi correggere e l'audio si ferma; quando hai finito di scrivere e sposti il mouse altrove, l'audio riparte. Se invece preferisci controllare tutto a mano, basta togliere la spunta.

Sulla destra di ogni riga c'è una piccola casella di spunta che serve a marcare il segmento come verificato. Le righe verificate prendono un fondo verde e il contatore in alto "X di N segmenti verificati" si aggiorna automaticamente: è utile per non perdere il filo quando si lavora su trascrizioni lunghe e si interrompe la revisione per tornarci più tardi.

Il salvataggio del lavoro è automatico: ogni modifica al testo viene memorizzata nel browser pochi istanti dopo l'ultima digitazione, usando come chiave nome e dimensione del file audio. Se chiudi il browser per errore, se la pagina si ricarica, se ti viene un'urgenza e devi spegnere il computer, alla riapertura della revisione per lo stesso audio trovi un avviso ambra in cima che ti propone di riprendere da dove eri rimasto, comprese le righe già verificate. Il lavoro salvato resta finché non clicchi "Accetta modifiche e torna" oppure "Annulla revisione" con conferma.

Quando hai finito, "Accetta modifiche e torna" sostituisce la trascrizione principale dell'app con il testo corretto nella colonna di destra. Da quel momento anche i pulsanti TXT, SRT, MD per IA, Scarica tutti TXT e Scarica MD unico per IA usano la versione rivista. Nella stessa barra puoi esportare subito il TXT, l'SRT o il Markdown rivisto; se l'audio proviene da "Seleziona cartella audio", il TXT rivisto viene scritto direttamente nella cartella di lavoro. "Annulla revisione" cancella tutto il lavoro fatto dopo conferma esplicita e lascia invariata la trascrizione precedente.

Per chi è abituato a lavorare con la tastiera, dentro la modalità revisione funzionano alcune scorciatoie utili quando il cursore non è dentro una casella di testo: spazio mette in play o pausa, frecce su e giù saltano al segmento precedente o successivo, frecce sinistra e destra riavvolgono o avanzano di tre secondi.

Esportazione per intelligenza artificiale

Accanto ai pulsanti TXT e SRT trovi un pulsante chiamato "MD per IA", presente sia nel toolbar della trascrizione sia nella barra della modalità revisione. Genera un file Markdown con una breve sezione iniziale di istruzioni pensate per ChatGPT, Claude, Gemini, Copilot, Perplexity e gli altri assistenti basati su modelli linguistici. Nella coda trovi anche "Scarica MD unico per IA", che riunisce in un solo documento tutte le trascrizioni pronte, distinguendole per file sorgente: è utile quando vuoi far analizzare a un modello una serie di vocali, come quelli contenuti in una conversazione WhatsApp esportata. Il senso è semplice: quando incolli o carichi una trascrizione automatica in un chatbot, il chatbot tende a trattarla come un testo scritto consapevolmente e prende per buoni nomi, importi, date e citazioni anche quando sono stati interpretati male dal riconoscimento vocale. Le istruzioni iniziali avvisano il modello che si tratta di una o più trascrizioni automatiche, gli elencano gli errori tipici che può aspettarsi e gli chiedono di estrarre il senso segnalando con prudenza tutti i punti sensibili (nomi propri, cifre, riferimenti normativi) invece di darli per acquisiti. Il formato Markdown rende più chiara la separazione tra prompt, file sorgente e trascrizione.

ATTENZIONE! il fatto che la trascrizione sia stata prodotta localmente nel tuo browser non significa che caricarla su un servizio online sia automaticamente sicuro. Nel momento in cui incolli o carichi il contenuto su ChatGPT, Claude, Gemini o simili, i dati possono essere conservati ed elaborati sui server del fornitore. Se l'audio originale conteneva nomi di persone, indirizzi, numeri di telefono, dati sanitari, dati bancari, riferimenti a procedimenti giudiziari, contenuti coperti da segreto professionale o qualsiasi altro dato personale o riservato, sei tu, e solo tu, che hai la responsabilità di decidere se anonimizzarli prima del caricamento, oppure se utilizzare soluzioni che garantiscano un trattamento conforme: servizi con accordo di trattamento dei dati firmato, account aziendali con clausola di non addestramento sull'input, oppure modelli ospitati su infrastrutture controllate. Questo strumento non invia nulla al tuo posto e non sostituisce il tuo giudizio professionale: il caricamento è una scelta tua e ne sei pienamente responsabile, anche ai fini della normativa sulla protezione dei dati personali e degli obblighi di riservatezza propri della tua professione.

Privacy e prestazioni

L'audio selezionato non viene caricato su server di trascrizione. Alla prima esecuzione il browser scarica il software e il modello necessari; dopo il download, questi elementi possono essere riutilizzati dalla cache locale. Il contenuto del file audio resta sul dispositivo. Anche la modalità cartella lavora localmente: il browser legge i file dalla cartella autorizzata dall'utente e, quando possibile, scrive i TXT nella stessa cartella senza inviarli a servizi esterni.

Questa impostazione offre un forte vantaggio di riservatezza, ma sposta il lavoro computazionale sul computer dell'utente. La velocità dipende dal browser, dal processore, dalla memoria disponibile, dalla presenza di WebGPU e dal modello scelto. Un portatile recente può comportarsi molto diversamente da un computer più datato.

WebGPU permette ai browser moderni, soprattutto Chrome ed Edge, di usare la scheda grafica per accelerare alcune operazioni. L'app rileva automaticamente la scheda e le sue capacità (in particolare l'estensione shader-f16, che non è sempre disponibile sui chip integrati): se è presente, usa una quantizzazione a 16 bit più veloce; altrimenti ripiega su una quantizzazione a 4 bit pura, leggermente più lenta ma universalmente compatibile. Se la scheda grafica dà problemi o si rifiuta di compilare gli shader, l'app passa progressivamente a configurazioni più semplici e, in ultima istanza, alla CPU.

L'indicatore di velocità si calibra automaticamente: dopo ogni trascrizione completa salva nel browser una media locale per modello e motore, così le stime successive diventano più realistiche sullo stesso computer. Il modello, una volta caricato, resta in memoria: trascrizioni successive con lo stesso modello partono in pochi secondi.

Consigli pratici

Per audio italiani il punto di partenza è Whisper small italiano, che è già fine-tuned per la nostra lingua. Se l'audio è particolarmente difficile (rumore, dialetti, termini tecnici) e il computer è recente con GPU dedicata e tanta RAM libera, prova Whisper large turbo per ottenere trascrizioni più simili a quelle dei servizi professionali. Se durante il download o l'avvio compaiono errori di memoria, torna subito a small italiano. Whisper base è una rete di sicurezza per computer molto datati.

Se la scheda grafica dà problemi (artefatti, crash della pagina, prestazioni inferiori al previsto), prova a forzare la modalità CPU dal menu Motore. È più lenta ma è il percorso più compatibile.

Alcuni warning tecnici del motore ONNX Runtime sono informativi e non significano che l'audio sia stato inviato fuori dal browser. La trascrizione può comunque contenere errori: questo strumento va usato come aiuto alla prima bozza, non come sostituto della verifica sul file originale.

Per qualsiasi testo destinato a un uso ufficiale usa sempre la modalità revisione. La trascrizione automatica fa il 90% del lavoro in pochi minuti; quel rimanente 10%, dove si nascondono nomi, numeri, importi, citazioni e termini tecnici, è esattamente quello che fa la differenza fra un documento utilizzabile e uno da rifare. Il riascolto con karaoke e pausa automatica è progettato per consentirti di intervenire in quei punti senza interrompere il flusso di lavoro.

pagina generata in 0.006 secondi in data 29 giugno 2026 (IUG:Y0-3E2812) - 1807 utenti online