![]() 3.869.491 | ![]() |
Questa applicazione consente di trasformare registrazioni, messaggi vocali e dettati in testo lavorando direttamente nel browser. La trascrizione è basata su Whisper, un modello di riconoscimento vocale che viene eseguito localmente sul computer dell'utente.
Il file audio resta sul dispositivo: viene letto, preparato e trascritto nel browser, senza essere caricato su un servizio esterno di trascrizione.
Whisper è una famiglia di modelli di riconoscimento vocale sviluppata originariamente da OpenAI. In pratica, è un sistema di intelligenza artificiale addestrato ad ascoltare un audio e trasformarlo in testo. Riconosce molte lingue, compreso l'italiano, e gestisce abbastanza bene accenti, parlato naturale e punteggiatura.
Il vantaggio principale, in questa applicazione, è che Whisper può funzionare direttamente nel browser. Questo consente di ottenere una trascrizione senza inviare il file audio a un servizio esterno perché tutto il lavoro viene svolto dal computer dell'utente, usando le risorse disponibili in quel momento.
1. Scegli il file audio. Puoi caricare una registrazione, un messaggio vocale, una telefonata, un dettato o un file ricevuto dal cliente. L'audio viene letto dal browser e preparato localmente nel formato richiesto dal modello di trascrizione.
2. Scegli il modello. L'opzione predefinita è Whisper small italiano: è il compromesso più affidabile, funziona sulla maggior parte dei PC, pesa circa 250 MB e dopo il primo download resta nella cache del browser. Se hai un PC recente con scheda grafica dedicata e abbondante memoria, puoi provare Whisper large turbo: è la famiglia di modelli usata dai servizi professionali e restituisce trascrizioni più accurate, ma richiede circa 800 MB di download e molta memoria, e su computer più modesti può fallire. Whisper base è la rete di sicurezza per PC datati o quando le altre opzioni esauriscono la memoria.
3. Avvia la trascrizione. L'elaborazione avviene in un processo separato della pagina, così l'interfaccia resta utilizzabile. Il testo compare a blocchi mentre l'audio viene trascritto; puoi decidere se mostrare anche i timestamp.
4. Esporta o procedi alla revisione. Una volta completata la trascrizione, puoi copiare il testo o scaricarlo come TXT/SRT. In alternativa, cliccando "Procedi con la revisione" si apre una modalità di riascolto guidato in cui puoi ascoltare l'audio originale e correggere il testo segmento per segmento. La trascrizione automatica è una bozza: nomi propri, parole tecniche, audio disturbato e frasi sovrapposte possono richiedere un controllo umano.
Quando la trascrizione è terminata compare nel toolbar dell'output un pulsante blu "Procedi con la revisione". Cliccandolo, l'interfaccia di trascrizione lascia spazio a un ambiente di riascolto e correzione.
L'area di lavoro è divisa in due colonne. A sinistra trovi la trascrizione automatica originale, riga per riga, ognuna preceduta dal suo timestamp. A destra trovi la stessa trascrizione in una serie di caselle modificabili, una per segmento. Mentre ascolti l'audio, la riga in riproduzione si evidenzia con un fondo giallo tenue e un bordo colorato sulla colonna di sinistra, così sai sempre a che punto del testo corrisponde la voce. La pagina scorre da sola per tenere visibile la riga corrente. Se vuoi saltare a un punto specifico, basta cliccare sul testo della colonna sinistra: l'audio salta a quel segmento e parte la riproduzione.
In alto la barra di controllo include un grande pulsante centrale di play e pausa, frecce per saltare al segmento precedente o successivo, due pulsanti per saltare avanti o indietro di tre secondi (utili quando hai sentito male l'ultima parolina), una checkbox "Loop segmento" che ripete in continuo il segmento corrente finché non la disattivi, un selettore di velocità da 0,5x a 2x (la velocità ridotta 0,75x è preziosa con voci concitate o legalese mormorato) e un cursore del volume. Sotto compare la barra di scorrimento dell'audio cliccabile e trascinabile, con tempo corrente e durata totale.
La caratteristica chiave per chi rivede testo è la pausa automatica, attiva di default tramite la spunta in fondo alla barra audio. Quando è attiva, l'audio si ferma da solo non appena porti il mouse sopra una casella editabile o cominci a scrivere in essa. Riprende da solo solo quando contemporaneamente il mouse è fuori dall'area editabile da almeno due secondi, la tastiera è ferma da almeno due secondi e nessuna casella ha il focus. In pratica puoi ascoltare a flusso continuo: nel momento in cui ti accorgi di un errore ti basta posare il mouse sul punto che vuoi correggere e l'audio si ferma; quando hai finito di scrivere e sposti il mouse altrove, l'audio riparte. Se invece preferisci controllare tutto a mano, basta togliere la spunta.
Sulla destra di ogni riga c'è una piccola casella di spunta che serve a marcare il segmento come verificato. Le righe verificate prendono un fondo verde e il contatore in alto "X di N segmenti verificati" si aggiorna automaticamente: è utile per non perdere il filo quando si lavora su trascrizioni lunghe e si interrompe la revisione per tornarci più tardi.
Il salvataggio del lavoro è automatico: ogni modifica al testo viene memorizzata nel browser pochi istanti dopo l'ultima digitazione, usando come chiave nome e dimensione del file audio. Se chiudi il browser per errore, se la pagina si ricarica, se ti viene un'urgenza e devi spegnere il computer, alla riapertura della revisione per lo stesso audio trovi un avviso ambra in cima che ti propone di riprendere da dove eri rimasto, comprese le righe già verificate. Il lavoro salvato resta finché non clicchi "Annulla revisione" con conferma, oppure finché non cambi file audio.
Quando hai finito, "Salva TXT rivisto" e "Salva SRT rivisto" scaricano il testo della colonna di destra (quella corretta da te), con un nome di file che riprende il nome dell'audio originale aggiungendo il suffisso "-rivisto". "Torna alla trascrizione" ti riporta indietro mantenendo tutte le modifiche per quando vorrai riprendere. "Annulla revisione" cancella tutto il lavoro fatto dopo conferma esplicita.
Per chi è abituato a lavorare con la tastiera, dentro la modalità revisione funzionano alcune scorciatoie utili quando il cursore non è dentro una casella di testo: spazio mette in play o pausa, frecce su e giù saltano al segmento precedente o successivo, frecce sinistra e destra riavvolgono o avanzano di tre secondi.
Accanto ai pulsanti TXT e SRT trovi un pulsante chiamato "TXT per IA", presente sia nel toolbar della trascrizione automatica sia nelle azioni di salvataggio della modalità revisione. Genera un file TXT identico a quello normale ma preceduto da un blocco di istruzioni pensate per ChatGPT, Claude, Gemini, Copilot, Perplexity e gli altri assistenti basati su modelli linguistici. Il senso è semplice: quando incolli o carichi una trascrizione automatica in un chatbot, il chatbot tende a trattarla come un testo scritto consapevolmente e prende per buoni nomi, importi, date e citazioni anche quando sono stati interpretati male dal riconoscimento vocale. Le istruzioni iniziali avvisano il modello che si tratta di una trascrizione automatica, gli elencano gli errori tipici che può aspettarsi e gli chiedono di estrarre il senso segnalando con prudenza tutti i punti sensibili (nomi propri, cifre, riferimenti normativi) invece di darli per acquisiti. È un piccolo accorgimento di formato che migliora sensibilmente la qualità di sintesi, riassunti, estrazione di concetti chiave e analisi.
ATTENZIONE! il fatto che la trascrizione sia stata prodotta localmente nel tuo browser non significa che caricarla su un servizio online sia automaticamente sicuro. Nel momento in cui incolli o carichi il contenuto su ChatGPT, Claude, Gemini o simili, i dati possono essere conservati ed elaborati sui server del fornitore. Se l'audio originale conteneva nomi di persone, indirizzi, numeri di telefono, dati sanitari, dati bancari, riferimenti a procedimenti giudiziari, contenuti coperti da segreto professionale o qualsiasi altro dato personale o riservato, sei tu, e solo tu, che hai la responsabilità di decidere se anonimizzarli prima del caricamento, oppure se utilizzare soluzioni che garantiscano un trattamento conforme: servizi con accordo di trattamento dei dati firmato, account aziendali con clausola di non addestramento sull'input, oppure modelli ospitati su infrastrutture controllate. Questo strumento non invia nulla al tuo posto e non sostituisce il tuo giudizio professionale: il caricamento è una scelta tua e ne sei pienamente responsabile, anche ai fini della normativa sulla protezione dei dati personali e degli obblighi di riservatezza propri della tua professione.
L'audio selezionato non viene caricato su server di trascrizione. Alla prima esecuzione il browser scarica il software e il modello necessari; dopo il download, questi elementi possono essere riutilizzati dalla cache locale. Il contenuto del file audio resta sul dispositivo.
Questa impostazione offre un forte vantaggio di riservatezza, ma sposta il lavoro computazionale sul computer dell'utente. La velocità dipende dal browser, dal processore, dalla memoria disponibile, dalla presenza di WebGPU e dal modello scelto. Un portatile recente può comportarsi molto diversamente da un computer più datato.
WebGPU permette ai browser moderni, soprattutto Chrome ed Edge, di usare la scheda grafica per accelerare alcune operazioni. L'app rileva automaticamente la scheda e le sue capacità (in particolare l'estensione shader-f16, che non è sempre disponibile sui chip integrati): se è presente, usa una quantizzazione a 16 bit più veloce; altrimenti ripiega su una quantizzazione a 4 bit pura, leggermente più lenta ma universalmente compatibile. Se la scheda grafica dà problemi o si rifiuta di compilare gli shader, l'app passa progressivamente a configurazioni più semplici e, in ultima istanza, alla CPU.
L'indicatore di velocità si calibra automaticamente: dopo ogni trascrizione completa salva nel browser una media locale per modello e motore, così le stime successive diventano più realistiche sullo stesso computer. Il modello, una volta caricato, resta in memoria: trascrizioni successive con lo stesso modello partono in pochi secondi.
Per audio italiani il punto di partenza è Whisper small italiano, che è già fine-tuned per la nostra lingua. Se l'audio è particolarmente difficile (rumore, dialetti, termini tecnici) e il computer è recente con GPU dedicata e tanta RAM libera, prova Whisper large turbo per ottenere trascrizioni più simili a quelle dei servizi professionali. Se durante il download o l'avvio compaiono errori di memoria, torna subito a small italiano. Whisper base è una rete di sicurezza per computer molto datati.
Se la scheda grafica dà problemi (artefatti, crash della pagina, prestazioni inferiori al previsto), prova a forzare la modalità CPU dal menu Motore. È più lenta ma è il percorso più compatibile.
Alcuni warning tecnici del motore ONNX Runtime sono informativi e non significano che l'audio sia stato inviato fuori dal browser. La trascrizione può comunque contenere errori: questo strumento va usato come aiuto alla prima bozza, non come sostituto della verifica sul file originale.
Per qualsiasi testo destinato a un uso ufficiale usa sempre la modalità revisione. La trascrizione automatica fa il 90% del lavoro in pochi minuti; quel rimanente 10%, dove si nascondono nomi, numeri, importi, citazioni e termini tecnici, è esattamente quello che fa la differenza fra un documento utilizzabile e uno da rifare. Il riascolto con karaoke e pausa automatica è progettato per consentirti di intervenire in quei punti senza interrompere il flusso di lavoro.
Quanto ritieni utile questo strumento?
4.7/5 (9 voti)
©2013-2026 Diritto Pratico - Termini di Servizio e informativa sul trattamento dei dati - Assistenza
pagina generata in 0.154 secondi in data 14 maggio 2026 (IUG:1L-991D31) - 2791 utenti online