Contesto

Il social engineering è una tecnica che sfrutta la psicologia umana per manipolare le persone e ottenere accesso a informazioni riservate o compiere azioni non autorizzate. Negli ultimi anni, questa pratica è diventata ancora più accessibile ed efficace grazie all’evoluzione dell’intelligenza artificiale (IA) applicata alla falsificazione vocale. Questo metodo permette di creare messaggi vocali estremamente realistici imitando la voce di una persona, rendendo più difficile per le vittime distinguere tra una comunicazione legittima e un tentativo di phishing.

La clonazione vocale alimentata dall’intelligenza artificiale rappresenta un grave problema anche per la creazione e diffusione di fake news. Attraverso l’utilizzo di questa tecnologia, è possibile creare dichiarazioni o interviste false attribuite a figure pubbliche, aumentando la disinformazione e la confusione tra la popolazione. Questo fenomeno non solo compromette la fiducia nelle comunicazioni digitali, ma può anche influenzare l’opinione pubblica e destabilizzare contesti politici e sociali.

La sintesi vocale mirata, resa possibile grazie all’intelligenza artificiale, sta rapidamente diventando uno strumento pericoloso nelle mani dei malintenzionati. Utilizzando software avanzati, è possibile replicare la voce di dirigenti aziendali, colleghi o familiari, in modo tale da poter ottenere trasferimenti di denaro, informazioni confidenziali o l’accesso a sistemi protetti. Questi attacchi di social engineering, che sfruttano la fiducia che riponiamo nel riconoscere una voce familiare, rappresentano una minaccia crescente, poiché l’aspetto umano delle comunicazioni vocali rende difficile identificarle come fraudolente.

Il rischio di subire un attacco di questo tipo è aumentato con l’adozione sempre più diffusa di tecnologie vocali in ambito professionale e personale, dove l’autenticazione vocale e le comunicazioni telefoniche sono ampiamente utilizzate per concludere transazioni e operazioni sensibili. Le vittime di questi attacchi spesso non sono consapevoli di essere ingannate, in quanto la qualità delle sintesi vocali generate dall’IA è ormai indistinguibile dalla voce reale. Questo tipo di social engineering rappresenta una sfida significativa per la sicurezza, poiché le tradizionali misure di protezione, come password e autenticazioni multi-fattore, non sono efficaci contro l’inganno della voce clonata.

Il mercato dei servizi di replicazione vocale basati sull’intelligenza artificiale è in rapida crescita, con un valore stimato che supererà i 2,5 miliardi di dollari entro il 2026. Questa tecnologia consente di replicare voci umane con alta precisione da campioni audio di pochi secondi, favorendo un aumento del numero di piattaforme e applicazioni disponibili. Parallelamente, si è verificato un incremento significativo degli attacchi di social engineering, dove la sintesi vocale viene utilizzata per truffe finanziarie o furti di dati sensibili.

Nel 2024, gli attacchi di phishing e social engineering rappresentano il 9% degli attacchi informatici totali, con casi di truffe che hanno portato al furto di milioni di dollari.

L’analisi OSINT sui servizi di Caller ID spoofing evidenzia una crescente accessibilità di queste piattaforme per scopi fraudolenti. Un esempio significativo è “Russian Coms,” un servizio attivo fino al 2024, che ha facilitato oltre 1,3 milioni di chiamate verso circa 500.000 numeri unici, causando perdite economiche di decine di milioni di sterline solo nel Regno Unito. Questo servizio era disponibile tramite app o dispositivi specializzati, venduti a circa £1.400 per un contratto di sei mesi, e includeva funzionalità avanzate come VPN per nascondere l’indirizzo IP.

Un altro studio ha identificato che i servizi di Caller ID spoofing generano fino a 50 milioni di chiamate fraudolente al mese negli Stati Uniti, con un tasso di successo del 20-30% nei casi di ingegneria sociale. Questo tipo di tecnologia è utilizzato principalmente per simulare numeri di banche o enti pubblici, ingannando le vittime e inducendole a trasferire denaro o fornire dati personali.

In questo documento verranno analizzati dei casi in cui è possibile sfruttare questa tecnica di social engineering.

Scenario di attacco

In questo capitolo verrà mostrato come sia possibile sfruttare tecnologie avanzate per replicare la voce di una persona al fine di ingannare terze parti. Questo processo si basa sull’acquisizione di campioni vocali, che possono essere raccolti attraverso diversi metodi, rendendo l’attacco estremamente versatile e difficile da rilevare.

La voce viene acquisita tramite audio o video presenti nei canali social, messaggi vocali inviati su WhatsApp o altri social network focalizzati sulla voce come ad esempio Loud e WeVoz, registrazioni dirette della vittima (nel caso in cui si conosca personalmente) oppure effettuando telefonate a vittime inconsapevoli e registrandole.

La clonazione della voce viene utilizzata principalmente per gli attacchi di vishing, ad esempio, utilizzando un attacco di tipo Caller ID Spoofing per ingannare la vittima, facendole credere che la chiamata ricevuta appartiene, ad esempio, all’istituto bancario dove è presente il suo conto corrente per compiere azioni fraudolente.

Proof Of Concept

Alcuni dei servizi web utilizzati per replicare la voce attraverso l’utilizzo dell’intelligenza artificiale, descritti nel paragrafo precedente, sono particolarmente avanzati, restituendo un risultato sorprendentemente simile all’originale e consentendo anche di aggiungere emozioni umane come rabbia, tristezza, paura, ecc. Uno dei siti più utilizzati è elevenlabs.io, che consente di creare cloni personalizzati della voce di un individuo. Sebbene il sito richieda il consenso della persona la cui voce viene replicata, nel contesto della nostra ricerca è evidente che il truffatore non ha alcun diritto di utilizzarla senza autorizzazione:

Figura 1 – Cloni di voci effettuare per i test

Come evidenziato dai risultati ottenuti dal confronto tra voci originali e voci clonate, effettuato tramite un software di analisi biometrica, è possibile quantificare il grado di somiglianza tra le voci analizzate. Il software fornisce uno score che misura tale somiglianza. Le voci utilizzate per l’analisi sono state selezionate tra diversi campioni vocali in nostro possesso. Nel primo caso, sono stati utilizzati campioni audio della stessa persona, uno originale e uno clonato, che hanno ottenuto uno score di 10.278:

Figura 2 – La voce originale e quella replicata hanno una somiglianza molto elevata

Nel secondo caso sono state messe a confronto voci totalmente diverse con uno score di -2.842:

Figura 3 – Le voci essendo diverse hanno ottenuto un punteggio molto basso relativo alla loro somiglianza

Un’ulteriore analisi è stata effettuata attraverso l’utilizzo dello spettrogramma, sono stati messi a confronto i campioni vocali utilizzati per il test precedente, uno originale e l’altro della voce replicata, da cui è possibile notare la somiglianza della frequenza:

Figura 4 – Analisi della frequenza campione vocale originale

Figura 5 – Analisi frequenza voce replicata

A questo punto, una volta ottenuto un campione audio valido è possibile falsificare il proprio numero chiamante. Molti servizi sono dotati di interfacce intuitive e user-friendly, che semplificano ulteriormente l’esecuzione di operazioni di spoofing, rendendo tali tecniche rapide ed accessibili. Un esempio pratico di questo tipo di servizio è riportato di seguito:

Figura 6 – Modifica dell’ID Chiamante (02 33) verso destinatario (327)

Una volta inseriti il numero della vittima e quello del chiamante, la persona riceve sul proprio telefono una chiamata con il Caller ID falsificato:

Figura 7 – Numero falsificato che appare come ID Chiamante

Dopo che la vittima risponde alla telefonata, un falso operatore, che si presenta come un broker conosciuto dalla vittima e responsabile dei suoi investimenti, inizia a interagire con lei. L’operatore suscita timore, facendole credere che il suo conto corrente sia stato compromesso. Per tranquillizzarla, suggerisce di trasferire i fondi su un conto ‘sicuro’ della banca, fino alla risoluzione del problema. Spaventata all’idea di perdere i propri risparmi, la vittima esegue l’operazione, convinta di parlare con un rappresentante legittimo della banca, grazie al numero che appare sul telefono e alla voce che sembra familiare.


N.B. I test effettuati sono stati condotti senza intenti fraudolenti, non è stata effettuata nessuna telefonata e richieste somme di denaro a vittime inconsapevoli.

Misure di protezione

Per contrastare le truffe di social engineering alimentate dall’intelligenza artificiale e dalla sintesi vocale mirata è necessario adottare strategie di protezione innovative e sofisticate.

Di recente, nel Regno Unito, è stato introdotto Daisy, un’intelligenza artificiale progettata per impersonare una simpatica nonnina, in grado di rispondere alle chiamate sospette e rallentare chi tenta di effettuare operazioni fraudolente, in particolare attraverso tecniche di Caller ID spoofing. Daisy utilizza risposte lente, conversazioni dilatorie e divagazioni tipiche di una persona anziana per confondere gli interlocutori e impedire loro di portare a termine i loro obiettivi. Alimentata da algoritmi avanzati di linguaggio naturale, l’IA riesce a simulare interazioni estremamente realistiche, dando l’impressione di parlare con una persona reale. Questo approccio innovativo rappresenta un’efficace soluzione tecnologica per proteggersi dalle comunicazioni ingannevoli, trasformando una semplice risposta telefonica in un sistema di difesa intelligente.

Per adottare un sistema di protezione strutturato e formale è possibile agire su diversi ambiti:

  • Formazione e sensibilizzazione: Educare i dipendenti e le persone a riconoscere segnali di allarme, come richieste urgenti o fuori dall’ordinario, e a sospettare delle comunicazioni vocali non verificate.
  • Verifica tramite canali alternativi: Quando si ricevono richieste sospette, verificare tramite metodi alternativi (come una chiamata diretta al contatto noto) per confermare la legittimità.
  • Monitoraggio delle comunicazioni: Utilizzare software di monitoraggio delle chiamate e dei messaggi per rilevare anomalie vocali o schemi sospetti, come voci alterate o incoerenti.
  • Limitare accessi e operazioni vocali: Minimizzare l’uso della voce come metodo principale di autenticazione o per approvare transazioni finanziarie, preferendo metodi più sicuri, come il riconoscimento biometrico o PIN.
  • Crittografia delle comunicazioni: Proteggere le comunicazioni sensibili tramite crittografia per evitare che vengano intercettate e utilizzate per attacchi di social engineering.

Adottare queste misure può significativamente ridurre il rischio di essere vittime di truffe basate sulla clonazione vocale e migliorare la sicurezza complessiva.

Conclusioni

In conclusione, l’avanzamento dell’intelligenza artificiale ha reso il social engineering una minaccia sempre più sofisticata e difficile da rilevare. Le truffe vocali, alimentate da queste innovazioni, sono particolarmente pericolose, poiché sfruttano il riconoscimento e la fiducia che le persone ripongono nelle voci familiari per manipolare e ingannare le vittime. Tali attacchi, spesso difficili da distinguere da conversazioni autentiche, pongono un rischio significativo sia a livello individuale che aziendale.

La clonazione vocale sta erodendo la fiducia nelle comunicazioni personali e professionali, poiché rende difficile distinguere tra voci autentiche e falsificate. La capacità di replicare fedelmente la voce di una persona, combinata con la possibilità di manipolare altri dettagli come il numero di telefono, porta le persone a dubitare della genuinità delle chiamate ricevute, anche da parte di amici, familiari o colleghi. Questo fenomeno crea un clima di sospetto, in cui anche le interazioni più comuni vengono messe in discussione, danneggiando la fiducia che è alla base delle relazioni umane e delle transazioni quotidiane.

L’evoluzione rapida delle minacce richiede una costante adattabilità delle strategie di difesa per proteggere non solo la sicurezza personale, ma anche quella delle organizzazioni, in un contesto sempre più vulnerabile a questo tipo di frodi.