Kevin Murnane

Questi sono i problemi reali rivelati dalla perdita belga delle registrazioni vocali di Google Assistant

Alla fine della scorsa settimana, è stata interrotta la storia di Google che utilizzava l’assistente in dispositivi come Nest Hub e Google Home per “intercettare” gli utenti. VRT NWS , un’organizzazione di notizie belga, ha riferito di aver ascoltato “oltre un migliaio” di registrazioni vocali di Assistent che includevano “conversazioni che non avrebbero mai dovuto essere registrate, alcune delle quali contengono informazioni sensibili.” Il rapporto VRW NWS e alcuni dei seguenti sulla copertura di altri punti vendita è condito dalla narrativa “male, duplicata della grande tecnologia” che viene spesso adottata dai media quando vengono riportate storie come questa. La perdita di dati belga illustra problemi gravi che devono essere affrontati, ma non hanno nulla a che fare con Google che intercettano o sono duplicati.

Migliorare i sistemi di riconoscimento vocale comporta la correzione degli errori che si verificano quando l’oratore dice una cosa e il sistema sente qualcosa di diverso. Gli esseri umani che hanno esperienza in una lingua e gli accenti usati dai parlanti della lingua ascoltano le registrazioni vocali e apportano correzioni che vengono poi utilizzate per addestrare il sistema a migliorare la precisione del riconoscimento. Tutto ciò che fa affidamento sul riconoscimento vocale automatico fa questo, Google incluso.

Gli esperti linguistici correggono le discrepanze tra ciò che è stato detto e ciò che è stato ascoltato.

Google subappalta questo lavoro a società con esperienza nelle lingue e nei dialetti locali. Un dipendente di una di quelle società in Belgio ha fornito a VRT NWS l’accesso alle registrazioni. Tra le mille e più registrazioni c’erano 153 che si verificavano quando l’Assistente si attivava senza sentire il comando di sveglia “OK / Hey Google”. Alcune di queste registrazioni errate includevano conversazioni in camera da letto, discussioni e chiamate di lavoro che avrebbero dovuto essere private. VRT NWS è stato anche in grado di scoprire l’identità di alcuni dei relatori dalle informazioni presenti nelle registrazioni.

Molto prima del rapporto VRW NWS, Google ha chiarito che le interrogazioni vocali all’Assistente sono registrate e ascoltate da esperti linguistici per migliorare la precisione del riconoscimento. Come notato sopra, questo è il business come al solito per le aziende che creano sistemi di riconoscimento vocale. Google offre agli utenti che si sentono a disagio nel registrare le opzioni di disattivazione della registrazione vocale, di eliminare automaticamente le registrazioni dai server di Google ogni 3 o 18 mesi o di eliminare manualmente singole registrazioni in qualsiasi momento.

Google ha pubblicato un post sul blog che parla di diversi punti relativi alla storia di NWS di VRT. Solo circa lo 0,2% di tutte le registrazioni è selezionato per la revisione da parte di esperti linguistici. Le registrazioni sono anonime, sebbene gli utenti possano dire qualcosa che permetta a qualcuno di identificare chi sono come è successo nelle registrazioni trapelate. Il dipendente che ha fornito a VRT NWS l’accesso alle registrazioni ha violato le norme di sicurezza dei dati di Google e i team di sicurezza e risposta della società stanno indagando su ciò che è accaduto. Google dice che prenderà le misure appropriate e rivedrà le sue salvaguardie per rendere meno probabile che una perdita di dati come questa accada di nuovo.

La fuga di dati belga non riguarda il fatto che Google sia malvagio.
La fuga di dati belga non riguarda il fatto che Google sia malvagio. GETTY
Qui non c’è niente che si adatti alla diabolica e ingannevole narrativa della grande tecnologia. Gli esseri umani che ascoltano le registrazioni vocali per migliorare i sistemi di riconoscimento vocale sono procedure operative standard e Google ha a lungo chiarito che le interazioni vocali con l’Assistente sono registrate e utilizzate dagli esseri umani per migliorare il sistema.

Quello che è successo è che un dipendente di uno dei subappaltatori di Google ha violato la politica facendo filtrare le registrazioni. Il dipendente era ignorante, incapace, malizioso? Il subappaltatore è stato negligente nel mantenere la sicurezza dei dati? Non lo sappiamo Google sta indagando per scoprire cosa è successo e promette di agire in base a ciò che trova. Ha anche affrontato pubblicamente il problema in un post sul blog.

Non c’è nulla di male o duplice in tutto questo. Il tag “intercettazioni” che appare frequentemente nei titoli è ridicolo. Nessuna parte di questa storia indica che Google sta ascoltando surrettiziamente per scoprire cosa stanno dicendo le persone.

Ciò non significa che non ci siano problemi seri qui che Google deve affrontare. Innanzitutto, il fatto che si sia verificata la perdita indica che la sicurezza dei dati per le registrazioni vocali dell’Assistente è inadeguata. Un dipendente non dovrebbe mai essere stato in grado di dare a una parte esterna l’accesso a queste registrazioni.

Non vuoi che Google registri momenti come questi.
Non vuoi che Google registri momenti come questi. GETTY
La registrazione quando l’Assistente si attiva senza sentire il comando di sveglia è un problema più serio. Google chiama questi “falsi accetta”. Le persone sanno quello che stanno facendo e dovrebbero sapere che vengono registrate quando attivano consapevolmente l’Assistente. Non sanno di essere registrati quando l’Assistente si attiva senza un comando di sveglia. Qualcosa di privato può essere ascoltato in entrambi i casi, ma è più probabile che accada quando le persone non si rendono conto che l’Assistente sta registrando. Questa è un’inaccettabile violazione della privacy.

Non sappiamo se il 153 falso accetta VRW NWS trovato rappresenta il 15,3% delle registrazioni trapelate perché non sappiamo quante più di 1000 registrazioni sono trapelate. Inoltre, non sappiamo se le registrazioni VRT NWS ascoltate siano un campione rappresentativo delle registrazioni inviate da Google per l’analisi. Il dipendente potrebbe aver scelto di filtrare una serie di registrazioni con un’alta proporzione di false accettazioni.

Tuttavia, se il campione è rappresentativo e circa il 15% delle registrazioni sono false, Google ha un problema serio che deve essere risolto prima piuttosto che dopo. Un tasso di accettazione errata del 15% è troppo alto per un sistema di riconoscimento vocale che registra le persone nella privacy della propria abitazione. Google ha bisogno di portare il falso tasso di accettazione a meno del cinque percento. Inoltre, Google (e Amazon, Apple e ogni altra azienda che commercializza un sistema di riconoscimento vocale incorporato in un dispositivo di casa intelligente) dovrebbe pubblicizzare l’attuale tasso di accettazione falsa su base regolare nell’interesse della trasparenza. Gli utenti dovrebbero essere informati sulla probabilità che il loro dispositivo intelligente si attivi senza un comando di sveglia.

Le registrazioni di voci trapelate in Belgio sono motivo di preoccupazione. La sicurezza dei dati di Google per le registrazioni vocali deve essere rafforzata e il tasso di accettazione falsa dell’Assistente deve essere ridotto. La copertura mediatica che inquadra la storia in termini di big tech che raccoglie surrettiziamente i dati degli utenti segue una narrazione confortevole che disinforma il lettore, accresce l’incomprensione e allontana l’attenzione dagli importanti problemi che devono essere risolti.

Di ihal