Storia di come hanno salvato la voce di Stephen Hawking
Il 14 Marzo 2018 è venuto a mancare Stephen Hawking. Molti lo ricordano accompagnato dalla sua carrozzina e la sua BCI che gli ha, da sempre, donato una voce iconica. Iconica perché, dal primo momento, è rimasta più o meno uguale (un po’ come una voce normale). In pochi però sanno che c’è stata una ricerca che ha coinvolto i migliori esperti di tecnologia vocale tra la Silicon Valley e Cambridge per ricostruirla e mantenerla così.
Uno dei primi protagonisti di questa storia è Eric Dorsey, un ingegnere di Palo Alto che ha incontrato Stephen Hawking per la prima volta nel 1988, quando Hawking visitò l’University of California (Barkeley) durante un viaggio in cui teneva delle lezioni in diverse università. All’epoca Stephen Hawking aveva 46 anni ed era già famoso per le sue scoperte riguardo la fisica quantistica e i buchi neri, ma non aveva ancora conosciuto la fama che ha seguìto la pubblicazione del suo best seller, “Breve storia del tempo”.
Hawking andava in giro su una sedia a rotelle con un sedile in pelle di pecora marrone, comandata per mezzo di un joystick, sghignazzando mentre correva via lasciando i giornalisti e le sue infermiere nella polvere. Quando parlava, la sua voce robotica emergeva da una scatola grigia fissata sul retro della sua sedia.
Il sintetizzatore vocale, il CallText 5010, formato da due chip che supportavano il software, all’epoca era una novità e non faceva ancora parte della sua identità. La malattia del motoneurone che lo aveva colpito circa vent’anni prima gli aveva tolto la parola solo recentemente: erano solo tre anni che Hawking usava il sintetizzatore vocale. Selezionava parti di testo sullo schermo e il CallText lo trasformava in parlato.
All’inizio di una lezione lo scienziato ci scherzò su, dicendo:
“L’unico problema è che mi dà un accento americano”.
Dorsey all’epoca partecipò a parte di quel viaggio in qualità di esperto della voce di Hawking, per spiegare il suo funzionamento ai giornalisti. Dorsey, infatti, lavorava per l’azienda creatrice del CallText 5010.
All’inizio Eric Dorsey era un 32enne ottimista, tranquillo ma determinato. Si unì alla Speech Plus come stagista, attratto dalla missione di aiutare gli altri; ora era a capo di un team di ingegneri e di quasi 20000 righe di codice che formano il CallText, il dispositivo che ha dato voce al più celebre scienziato dei nostri giorni.
Alla fine del tour in California, Hawking diede a Dorsey una copia autografata del suo libro (l’autografo consisteva nell’impronta digitale del suo pollice), prima di tornare a Cambridge, mentre Dorsey continuò la sua vita in California.
Sono dovuti passare ventisei anni prima che le loro strade si incontrassero di nuovo. Il che, dal punto di vista tecnologico è un’infinità di tempo. Nel frattempo nacque Internet, la Silicon Valley esplose, crollò ed esplose di nuovo. Apple, Amazon, Facebook, Google, Uber. Dorsey, nel frattempo, lasciò la Speech Plus, che era fallita e comprata da diverse altre società. Si è sposato e ha avuto dei figli, è diventato buddista e ha pure abbandonato il campo della tecnologia relativa al linguaggio, passando all’ambito dei videoregistratori.
Per questo, quando di punto in bianco gli arrivò un’email dalla Cambridge University, nel 2014, Dorsey rimase parecchio sorpreso. La mail arrivava dall’assistente tecnico di Hawking, Jonathan Wood, che era il responsabile del sistema di comunicazione dello scienziato.
La mail diceva qualcosa di così improbabile che Dorsey fece fatica a capirla al primo colpo: Hawking stava ancora usando il sintetizzatore vocale CallText 5010, una versione che aveva visto il suo ultimo aggiornamento nel 1986. In quasi 30 anni non era mai passato ad una nuova tecnologia. Allo scienziato piaceva la voce così com’era e aveva sempre ostinatamente rifiutato ogni altra opzione. La mail poneva quindi il problema: l’hardware mostrava i primi segni di usura. Questo significava che, se non si fosse intervenuti per tempo, la voce di Hawking, ormai distintiva, sarebbe andata persa.
La soluzione proposta da Wood era di replicare l’hardware decadente in un nuovo software, in modo da trasportare la voce in un computer moderno, senza cambiarne il suono. Per anni, Wood e colleghi avevano esplorato diversi approcci, e oggi chiedevano l’opinione di Dorsey.
Un hardware di 30 anni? Non sarebbe stato facile, avrebbero forse dovuto rimette mano al vecchio codice sorgente, trovare i chip originali e i relativi manuali. Non potevano ricomprarli, la compagnia che li aveva creati non c’era più da tempo. Risolvere questo problema poteva significare dover tirar su uno scavo archeologico in un’antiquata era tecnologica.
Un’impresa titanica. Ma, cavoli, si trattava di Stephen Hawking.
Dorsey accettò.
Più di ogni altra parte di noi, la nostra voce esprime chi siamo e anche le sue più piccole fluttuazioni hanno dei significati che sono difficili da riconoscere per un computer. Quando una persona dice qualcosa l’intonazione prende delle pieghe in base a ciò che sta esprimendo. La persona lo fa senza pensarci, un computer, invece, tira ad indovinare.
Le moderne voci sintetizzate (come Siri di Apple) si basano su librerie pre-registrate che raccolgono suoni naturali. I doppiatori registrano grandi librerie di parole e sillabe e i software tagliano questi suoni e li riassemblano per creare la frase desiderata.
Ma 30 anni fa i computer potevano solo creare una versione stilizzata di una voce umana. All’epoca, Dennis Klatt, uno scienziato del MIT, sottopose la sua stessa gola ai raggi x per misurare la variazione della laringe al variare dei suoni articolati e sviluppò un modello software di linguaggio, il Klatt Model, basato appunto sulla sua stessa voce.
La Speech Plus prese il modello di Klatt, lo migliorò e lo commercializzò in vari dispositivi, incluso il CallText 5010. Uno dei contributi di Dorsey fu di scrivere un algoritmo che controllava l’intonazione della voce, gli acuti e i bassi delle parole e delle frasi. Speech Plus vendette centinaia di CallText, sebbene molti clienti si lamentarono che la voce sembrava troppo robotica.
Ma a Stephen Hawking piaceva. Si, la voce era in effetti robotica, ma Hawking apprezzava il fatto che si riuscisse a capire bene anche in grandi anfiteatri e aule.
Iniziava spesso i suoi speech dicendo la stessa frase: “Can you hear me?” e il pubblico rispondeva entusiasta: “Yes!”.
Col passare degli anni le voci sintetiche diventarono più naturali grazie a chip più veloci e metodi di archiviazione meno costosi, Hawking ebbe occasione di fare un upgrade. Nel 1996 un’azienda del Massachusetts che si occupava di tecnologia vocale di nome Nuance, che comprò ciò che rimaneva della Speech Plus, aggiornò il CallText in modo da avere una voce più piena, veloce, meno robotica e con meno pause tra le frasi. Gli ingegneri della Nuance mandarono ad Hawking un campione della nuova voce, pensando che ne sarebbe stato compiaciuto. Ma si sbagliavano. Hawking rispose che l’intonazione era sbagliata e che preferiva quella del 1986, modulata attraverso l’algoritmo di intonazione di Dorsey.
“L’ho tenuta perché non ho sentito una voce che mi piaccia di più e perché mi sono identificato con questa.” Disse una volta Hawking. Avrebbe potuto scegliere una voce più morbida, ma poi non si sarebbe sentito se stesso.
Per Stephen il suo “equipaggiamento” era parte del suo corpo, quindi aggiornare una parte di questo equipaggiamento avrebbe significato cambiare una parte del suo corpo.
A partire dal 2009, Wood e altri tecnici cercarono di separare la voce di Hawking dall’hardware di CallText.
Una delle opzioni era di aggiustare una moderna voce sintetica (come Siri) in modo che somigliasse di più a quella di Hawking. Ma i sistemi come Siri si basano su vaste librerie salvate in Cloud, e Hawking non poteva rimanere connesso a Internet tutto il tempo.
Fu provato anche un approccio completamente diverso. Peter Benie, considerato un guru del computer all’Università di Cambridge, sviluppò un software che emulava il CallText; l’idea era di creare un programma che avrebbe fatto credere ad un moderno pc di essere il vecchio CallText. Ma secondo Hawking il risultato non era abbastanza somigliante alla sua “voce” originale.
Quando contattarono Dorsey nel 2014, il team di Cambridge stava esplorando una nuova strada: rintracciare il vecchio codice sorgente del CallText (ora di proprietà della Nuance) e trascriverlo sul computer di Hawking, trasportando la vecchia voce in un “corpo” nuovo. Si trattava di trovare questo codice sorgente o, in caso contrario, trovare abbastanza informazioni per fare reverse-engineering sul problema.
Dorsey iniziò la sua ricerca contattando i vecchi colleghi, che non sentiva da 30 anni, chiedendo loro se avessero qualche pezzo del CallText in giro: schede, chip, manuali. Un tizio trovò una scheda originale del CallText nel suo garage. Altri individuarono schemi impolverati. Gli sembrava una folle corsa in una vecchia epoca tecnologica, ma le persone là fuori balzavano all’idea di poter aiutare.
“L’idea era di salvare la sua voce”, disse Dorsey. “Quando vai da qualcuno dicendo Mi serve il tuo aiuto per salvare la voce di Stephen Hawking, la gente si attiva immediatamente.”
Immediatamente, Patti Price, una specialista in ambito di sintetizzatori vocali, divenne la sua più stretta collaboratrice. Price aveva studiato con Klatt, il “nonno” della voce di Stephen Hawking. Era un’esperta nell’analizzare campioni audio, confrontarli tra loro e usare le impronte digitali audio per fare reverse engineering e scoprire come quegli audio erano stati creati.
La ricerca archeologica di Dorsey per trovare questo vecchio codice diventò presto frustrante. Nessun membro della Nuance fu in grado di trovare il codice della versione del 1986 del CallText. Trovarono, invece, la versione del codice del 1996, in una cassetta di backup lasciata in un ufficio in Belgio. Dopo qualche mese di lavoro, gli ingegneri della Nuance presero questo codice e cercarono di adattarlo alla voce del 1986.
Non funzionò molto bene. La voce risultante era quasi uguale, ma non era ancora perfetta. Hawking continuava a sottolineare differenze che gli altri facevano quasi fatica a riconoscere.
“È come riconoscere la tua voce naturale.” Disse Price. “Ti basta ascoltare due sillabe di un campione vocale per stabilire se è la tua oppure no”.
Un altro problema era che era la Nuance la proprietaria del codice sorgente, non Hawking. Il famoso fisico aveva sempre avuto l’intenzione di controllare l’uso della sua voce e se il team fosse riuscito ad evitare l’uso del software proprietario, lo scienziato avrebbe avuto più controllo.
A questo punto, il team cambiò approccio e tornò all’idea originale: sviluppare un software che emulasse il CallText, così come i moderni PC riescono a emulare i vecchi giochi Nintendo che non sono più prodotti.
Ovviamente il CallText era più intricato di un Nintendo, guidato da due chip (uno prodotto da Intel e l’altro dalla NEC), entrambi obsoleti e che interagivano tra loro in modo complesso.
Sviluppare l’emulatore richiese uno sforzo quasi eroico dal punto di vista della programmazione, grande intuizione e una “chirurgia” high-tech. I chip dovevano essere rimossi da una scheda CallText di ricambio con una pinzetta ed un cacciavite. Si doveva scrivere l’emulatore per Intel da zero. Il secondo emulatore, per il NEC, fu ispirato da un emulatore per Nintendo open-source chiamato Higan. E tutti questi pezzi separati, alla fine, andavano accorpati insieme. Il che era come dover fare un puzzle con gli occhi bendati.
Per un po’ è stato difficile proseguire. Certi campioni audio erano così mediocri che nessuno osava farli ascoltare ad Hawking.
La svolta arrivò appena prima di Natale 2017, quando l’emulatore finalmente iniziò a produrre suoni che somigliavano alla voce familiare che stavano cercando. Aveva qualche piccolo glitch, ma secondo Price la voce trovava una corrispondenza acustica con la forma d’onda sonora prodotta dalla voce di Hawking. L’unica differenza percepibile era l’assenza di quel ronzio analogico.
Durante le settimane successive, a Cambridge e Palo Alto tutti i membri del team continuarono a sistemare la nuova voce, fornendogli frammenti dei vecchi discorsi di Hawking e campioni di testo pieni di virgolette, ascoltando poi il risultato.
Il 17 gennaio il team si sentì pronto per mostrare la nuova voce ad Hawking. Alcuni membri del gruppo andarono a casa dello scienziato e gli fecero ascoltare qualche campione della nuova voce attraverso un computer Linux. Per la gioia (e sollievo) del team, Hawking diede loro la sua benedizione. La nuova voce suonava proprio come la sua voce.
Avevano ancora bisogno di portare la voce sul pc, quindi Wood caricò temporaneamente una versione della voce su un Raspberry Pi (un hardware piccolo e portabile). Pensava che Hawking avrebbe gradito provare la nuova voce nella vita di tutti i giorni, quindi il Raspberry Pi era il modo più veloce per farlo funzionare.
Il 26 di gennaio Wood portò il Raspberry Pi a casa di Hawking, chiedendogli se gli sarebbe piaciuto provarlo. Hawking sollevò le sopracciglia, il che significava “si”.
Il team, quindi, mise il Raspberry Pi in una piccola scatolina nera, attaccata poi sul retro della sedia a rotelle di Hawking attraverso del semplice velcro, e lo collegarono al box vocale. Quindi disconnessero il CallText e per la prima volta dopo 33 anni, Hawking fu in grado di parlare senza.
Wood osservava Hawking, nell’avida attesa di una sua reazione.
“Mi piace!” disse lo scienziato.
Per alcune settimane successive, Hawking continuò ad utilizzare l’emulatore che girava sul Raspberry Pi per le sue conversazioni private, chiacchierando contento con amici e colleghi.
Wood disse: “E’ stato un piacere essere stati in grado di dargli qualcosa del genere, qualcosa su cui così tante persone hanno lavorato per così tanti anni.” A questo punto, rimaneva solo da sistemare la versione per pc, che aveva ancora qualche bug. Bastarono alcune altre revisioni del codice per liberarlo da tutti gli errori.
“Avevamo praticamente superato tutti gli ostacoli tecnici”, spiegò Dorsey. “Tutti finalmente pensarono, eccolo, funziona, ce l’abbiamo fatta.”
E fu proprio quando Hawking si ammalò, a febbraio.
Secondo Wood, Hawking continuò ad utilizzare l’emulatore fino all’ultimo giorno. Fu in grado di comunicare con le persone che amava e che lo amavano e con gli infermieri tramite il nuovo software sul Raspberry Pi. Le ultime parole che ha pronunciato, qualsiasi esse siano state, le ha dette attraverso una versione della sua voce formata da migliaia di righe di codice, byte e byte potenzialmente immortali.
Tutti quelli che hanno lavorato al progetto sapevano che Hawking poteva non vivere abbastanza per usare tanto l’emulatore. Era già stato malato in passato, ma si era sempre ripreso. Nel 2014, quando Wood contattò la prima volta Dorsey, Hawking aveva 72 anni. Pensarono, tuttavia, che il CallText sarebbe potuto crollare in sei mesi, mentre Hawking avrebbe potuto vivere fino a 80 anni.
Oggi, insieme alla tristezza per la morte di Hawking, Dorsey non può fare a meno di provare delusione. Lui e tutto il resto del team avevano fatto i salti mortali per costruire qualcosa di complicato che finalmente riusciva a funzionare bene, ma che sarebbe rimasto inutilizzato. Allo stesso tempo, il progetto lo ha riportato a quando era più giovane, a quel ragazzo che voleva usare l’ingegneria per compiere buone azioni e aiutare le persone. In quegli anni, mentre lavorava all’algoritmo di intonazione del CallText, non poteva immaginare che avrebbe aiutato a definire un genio della scienza per il mondo intero, e persino per se stesso.
Fonte: https://www.sfchronicle.com/bayarea/article/The-Silicon-Valley-quest-to-preserve-Stephen-12759775.php#photo-15234221