In diversi mi stanno chiedendo quali software e metodologie di analisi forense ho utilizzato per la perizia fonica su registrazione telefonica eseguita per Le Iene nel servizio di Nicolò De Devitiis andato in onda su Italia Uno domenica scorsa. Per soddisfare la curiosità degli appassionati di audio forensics, a titolo di esempio di perizia fonica, illustrerò quindi brevemente in questo post i passi principali dell’analisi fonica per la verifica della manipolazione con comparazione vocale del file audio fornito per l’analisi.
La puntata de Le Iene, intitolata “La truffa del Sì” cui ho collaborato come perito fonico mostra come il call center che rivendeva contratti di un noto operatore dell’energia ha svolto pratiche commerciali scorrette contattando telefonicamente persone ignare, registrando i “Sì” da esse pronunciati al telefono e montandoli sulla registrazione di una conversazione telefonica durante la quale risulta che la vittima manifesta la sua intenzione di stipulare un nuovo contratto dopo aver disdetto il vecchio registrata in un “verbal order” utilizzato poi dalla Compagnia per migrare effettivamente il contratto come se si trattasse di un vero e proprio contratto cartaceo firmato.
Il verbal order è infatti una modalità di stiuplare un contratto a distanza, in particolare tramite telefono, sempre più diffusa e utilizzata ad esempio per la vendita di servizi e abbonamenti telefonici, di rete fissa o mobile, di pay-tv e abbonamenti satellitari, di prodotti finanziari o per attivazione di contratti di fornitura di servizi energetici. Il verbal order consiste sostanzialmente nella registrazione di una conversazione in cui si svolge una transazione economica, che documenta la correttezza ed autenticità dell’ordine impartito che dovrebbe essere corrispondente a quanto riportato poi sul contratto cartaceo e, ovviamente, a quanto realmente dichiarato dal consumatore.
In casi diffusi è stata, già in passato, riscontrata una difformità tra quanto indicato nel contratto e quanto pronunciato a voce: diversi consumatori lamentano l’inserimento a voce di parole non presenti nel testo del contratto, l’assenza di parole importanti o la sostituzione di alcune parole o frasi.
In questo caso, l’anomalia è particolare: a orecchio si ha già l’impressione che i 12 “Sì” pronunciati dalla Sig.ra Carla sono in realtà sempre lo stesso: gli autori della registrazione hanno infatti registrato quello vero (probabilmente ottenuto come risposta alla domanda circa l’identità della persona chiamata) e poi l’hanno montato come unica risposta in una telefonata in cui si chiedeva consenso per il cambio di gestore dell’energia elettrica.
Per ottenere la dimostrazione dell’identità dei 12 “Sì” e quindi la verifica della manipolazione del file audio, abbiamo proceduto in diverse maniere e con diversi software di audio forensics, commerciali e gratuiti oltre che open source, senza tra l’altro aver avuto bisogno di registrare un saggio fonico poiché la comparazione vocale era da svolgere all’interno dello stesso file:
Preciso che GIMP non è un software di audio forensics ma è stato utilizzato per mostrare, utilizzando la funzione dei livelli e sfruttandone la trasparenza graduale, la sostanziale identità dei diagrammi generati tramite PRAAT dove risultano evidenti le formanti, il timbro (pitch) e l’intensità della voce della Sig.ra durante la pronuncia della parola “Sì” che è stata poi copiata e incollata per 12 volte nella registrazione La metodologia utilizzata per verificare e dimostrare la manipolazione della registrazione telefonica mediante il montaggio delle parti di audio e la non originalità della telefonata è basata infatti sulla comparazione delle forme d’onda, dello spettrogramma, delle formanti, dei livelli, del timbro (pitch) oltre che dall’ascolto delle componenti ripetute ed estratte dalla traccia integrale.
Ho innanzitutto proceduto con l’estrazione, dalla telefonata registrata fornita alla Sig.ra Carla dopo le sue rimostranze sul cambio indesiderato del contratto, dei 12 intervalli durante i quali si sente la Sig.ra pronunciare “Sì” come risposta alle domande dell’operatore. Per selezionare esattamente l’intervallo corrispondente alla registrazione del “Sì” incollato con funzione di “merge” sulla telefonata pre-registrata, ho utilizzato iZotope RX 5 mettendo in risalto i contrasti delle frequenze nello spettrogramma così da identificare con precisione l’inizio e la fine del pezzo contenente il “Sì” che risulta durare per tutti e 12 i “Sì” esattamente 0.433 secondi.
L’immagine mostra l’analisi e la pulizia della registrazione audio dalle parole pronunciate dall’operatore telefonico, lasciando quindi soltanto ben evidenti le parti con il “Sì” che verranno utilizzate per periziare l’audio e dimostrarne la manipolazione. I segni blu indicano la forma d’onda dei “Sì”: più sono intensi, maggiore è l’intensità in Decibel e quindi il “volume” percepito della voce. Le tracce arancioni e gialle indicano invece le frequenze all’interno dello spettrogramma, dove nel campo del tempo che scorre in orizzontale abbiamo in verticale le frequenze mostrate dalla trasformata di Fourier schiarendo quelle più intense.
Già a occhio nella comparazione dell’audio estratto da tre “Sì” che un perito fonico può eseguire tramite strumentazione come iZotope RX Studio si nota come sia le forme d’onda sia lo spettrogramma dei 12 sì sia praticamente identico. Osservando ad esempio tre “Sì”, è evidente nello spettrogramma la stessa identica “figura” che si ripete uguale nonostante il brusio di sottofondo del call center sia sempre diverso: il “Sì” è stato “mescolato” all’audio della telefonata registrata e non “sostituito”, altrimenti si sarebbe percepito troppo il passaggio. Nel diagramma qui sopra (detto appunto “spettrogramma”) il suono e la voce vengono convertiti in una “forma” nella quale le parti più chiare indicano le frequenze con l’intensità più alta, frequenze che per i tre “Sì” formano la stessa identica forma.
Questo tipo di analisi si sarebbe potuto tranquillamente fare anche con Audacity e Speech Filing System (SFS), tool free e open source utilizzati in ambito di editing e audio forensics, ovviamente con strumenti come iZotope RX Studio o ancora meglio Sony/Magix Spectra Layers Pro si può avere una visione più chiara del fenomeno, che può persino diventare uno spettrogramma tridimensionale, come si può apprezzare nella seguente immagine generata tramite Sony/Magix Spectra Layers Pro, strumento spesso utilizzato da chi esegue attività di perizia fonica.
Si può notare come le tre forme, che ripetiamo sono disegnate a partire dalle frequenze di tre “Sì” presi da punti diversi dalla registrazione dell’operatore, risultano sostanzialmente identiche, cosa praticamente impossibile da realizzare nella realtà anche pronunciando 1.000 volte una stessa parola. La riproduzione tridimensionale dello spettrogramma permette di apprezzare le altezze ruotando la posizione dell’osservatore e confermando ulteriormente l’identità delle parole pronunciate.
Non accontentandoci delle frequenze, abbiamo proceduto ad analizzare le frequenze di risonanza prodotte dalla voce umana, dette formanti, calcolabili ad esempio tramite PRAAT o SFS (Speech Filing System) e riproducibili su di una tabella con il numero di formante come colonna (a partire dalla cosiddetta “fondamentale”∑, F0) e ogni “Sì” come linea.
Le frequenze formanti in genere si calcolano sulle vocali pronunciate dal soggetto e sono caratteristiche del soggetto stesso e della vocale che sta pronunciando. Una volta raccolte le formanti nei vari punti ripetuti della registrazione, è possibile calcolarne la media, la deviazione standard, la deviazione standard media e l’errore percentuale e medio così da dimostrare la perfetta coincidenza (tenuto ovviamente conto del mix/merge con il rumore di sottofondo) del parlato nei punti in cui la Sig.ra Carla pronuncia la parola “Sì”.
Per una visione più chiara delle formanti, utilizziamo il software free ed open source PRAAT, sviluppato dall’Università di Amsterdam, che ci mostra
PRAAT ci permette di eseguire una comparazione vocale “visiva” osservando la sostanziale coincidenza della distribuzione dei punti rossi (che rappresentano le formanti) nello spettrogramma in basso, dellle linee blu (che rappresentano il timbro/pitch) e di quelle gialle (che rappresentano l’intensità della voce) confrontando il fonema di sinistra e quello di destra, corrispondenti a due “Sì” diversi nella registrazione fornita dall’operatore.
Come al solito, un video illustra in modo migliore il passaggio da una immagine all’altra, così presentiamo qui di fianco la transizione tra lo schema prodotto da PRAAT per un “Sì” verso quello prodotto per un “Sì” diverso nella registrazione. Si nota chiaramente come i punti rossi (che identificano le frequenze formanti) rimangono nella stessa area, così come la linea blu (pitch) e quella gialla (intensità), oltre alle sfumature di grigio che identificano lo spettrogramma stesso.
In conclusione, quindi, tramite questo esempio di perizia informatica, in particolare esempio di perizia fonica, abbiamo dimostrato come è avvenuta la comparazione vocale utilizzata per la perizia fonica svolta a supporto del servizio de Le Iene di Nicolò De Devitiis. Tale comparazione vocale ha dimostrato, tra l’altro senza bisogno di saggio fonico, come nella registrazione fornita dall’operatore telefonico alla Sig.ra Carla, la sua voce è stata prelevata e utilizzata per comporre una nuova registrazione, utilizzata poi per disdire il suo vecchio contratto e stipularne uno nuovo.