Eugene Choi, Raffu Khondaker, Irfan Nafi e Pranav Ravella sono studenti della Thomas Jefferson High School for Science and Technology, ad Alexandria, in Virginia. Il gruppo di giovani studenti di una scuola superiore ha sviluppato un’app per smartphone a basso costo per aiutare soggetti non vedenti o ipovedenti.
“Abbiamo notato che il campo di visione artificiale è arrivato a un punto in cui è in grado di rilevare oggetti con una precisione davvero buona e descrivere una scena proprio come farebbe un essere umano“, afferma Choi. “L’applicazione immediata a cui abbiamo pensato era un aiuto visivo per le persone con ipovisione o non vedenti”.
L’applicazione si chiama Atheia ed è un’app mobile che effettua osservazioni sull’ambiente dell’utente per migliorare la consapevolezza spaziale e la sicurezza al fine di aiutare soggetti non vedenti o ipovedenti. La sua funzione di riconoscimento facciale può identificare familiari e amici. Il lettore di testo integrato scansiona le parole e le legge ad alta voce. La funzione di scansione riconosce, conta e individua gli oggetti nel campo visivo dell’utente. L’applicazione tiene traccia anche delle sue osservazioni, in modo che gli utenti possano chiedere dove è stato localizzato più di recente un oggetto: Atheia risponde con la posizione, l’ora in cui è stata identificata l’ultima volta e gli oggetti vicini.
La funzione di ricerca indirizza gli utenti agli oggetti nel loro ambiente tramite feedback tattile e istruzioni audio. L’assistente vocale dell’app descrive verbalmente l’identità di persone e oggetti nell’ambiente di un utente. Atheia può rispondere a domande aperte sull’ambiente che circonda la persona, come la forma e le dimensioni degli oggetti o l’ora del giorno.
Inoltre, gli utenti che si sentono in pericolo possono attivare la modalità sentinella dell’app tramite un comando vocale o premendo un pulsante. Atheia inizierà a registrare video, messaggi di aggiornamento in tempo reale ai contatti di emergenza e fornirà ai contatti la posizione dell’utente.
Gli studenti, iscritti a un club di machine learning, hanno iniziato a lavorare al progetto nel 2019. Hanno fatto molti tentativi prima di avere un prototipo funzionante. L’app è ora in fase di test da parte di volontari presso il Blind Industries and Services of Maryland, un’organizzazione senza fini di lucro di Baltimora che fornisce risorse per la formazione e la carriera ai non vedenti dello stato.
La consulente degli studenti è il membro IEEE Pamela Ahn, direttrice del laboratorio di ricerca sull’elettronica della scuola. È la fondatrice e presidente del gruppo di affinità IEEE Richmond (Va.) Section Women in Engineering. “Questi quattro ragazzi vogliono avere un impatto nel mondo“, dice Ahn. “Vogliono aiutare le altre persone, e vogliono farlo da un punto di vista molto disinteressato. Hanno menti brillanti e sono grandi lavoratori. Sono molto diligenti e concentrati”.
Gli studenti hanno sviluppato l’app, la pipeline di elaborazione delle informazioni e gli algoritmi di ricerca e di obstacle-avoidance (letteralmente “evitamento degli ostacoli”) per venire incontro alle richieste degli utenti con una bassa latenza e alta precisione. L’app utilizza i più recenti modelli di visione artificiale e tecniche di machine learning per aumentare l’accuratezza del modo in cui classifica gli oggetti. Include anche un modello leader di rilevamento degli oggetti, una struttura multimodale per la ricerca sulla visione e sul linguaggio, un programma visivo di risposta alle domande e un algoritmo di riconoscimento del testo.
I dati vengono elaborati localmente sul dispositivo mobile anziché tramite un servizio cloud, al fine di soddisfare le richieste degli utenti indipendentemente dal fatto che dispongano di un segnale cellulare. “Durante i nostri test, ci siamo resi conto di quanto fosse fondamentale servire i nostri utenti indipendentemente da dove si trovassero”, afferma Ravella. “È stata una sfida immensa convertire i nostri enormi e pesanti modelli di computer vision in qualcosa che potesse funzionare su un iPhone. Ma grazie al Neural Engine di Apple è stato possibile e ne è valsa la pena”.
L’app attualmente è disponibile solo su iOS perché gli iPhone sono i più popolari tra quelli che testeranno il dispositivo. Inoltre, il software di Apple ha più funzionalità di accessibilità. Questa scelta ha consentito agli studenti di non doversi preoccupare troppo per l’hardware e concentrarsi maggiormente sul software, perché Apple ha eccellenti fotocamere per iPhone, tecnologia di profondità, potenza di elaborazione e durata della batteria, ha affermato Ravella.
Quando si progetta un nuovo dispositivo si vuole rispondere alla domanda relativa a un problema di un certo bacino di utenza. Il primo tentativo degli studenti di realizzare un dispositivo di assistenza è stato un guanto con una fotocamera, che secondo Choi non ha avuto successo perché è stato progettato senza l’input da parte di potenziali utenti. “Siamo caduti in una trappola comune in cui cadono molti [sviluppatori] di tecnologie assistive“, dice. “Prima abbiamo creato una soluzione e poi abbiamo trovato il problema esatto a cui corrispondeva, che non è proprio il modo in cui dovresti creare questi dispositivi o affrontare qualsiasi problema di ingegneria”.
Poiché non potevano condurre interviste di persona a causa delle restrizioni sulla pandemia di COVID-19, gli studenti hanno utilizzato Facebook per trovare persone con problemi di vista e chiedere informazioni sui loro bisogni. Si sono anche consultati con il Blind Industries e il National Industries for the Blind, un servizio di collocamento a Baltimora per ipovedenti. “Erano disposti a darci un feedback e abbiamo capito il potenziale di un tale dispositivo, il che è stato davvero stimolante e ci ha portati a reinventarci”, afferma Ravella.
Sulla base di quel feedback, il team ha scartato il guanto e ha iniziato a sviluppare dispositivi da indossare sul polso e sulla testa e infine l’app mobile per aiutare i soggetti non vedenti. E si sono assicurati di ricevere input su ciascuno dei loro sei prototipi. Dopo aver speso centinaia di dollari dei propri soldi per acquistare parti e pagare per il software, gli studenti hanno cercato partner per coprire i costi di sviluppo. I loro partner includono Amazon Web Services, la Maximus Foundation, il dipartimento di tecnologia assistiva del MIT e Ultralytics. Il team ha anche utilizzato i soldi che aveva vinto in concorsi e hackathon.
Tutti e quattro gli studenti intendono intraprendere una carriera STEM. Ravella afferma di voler approfondire il ruolo che l’apprendimento automatico può svolgere nella sicurezza informatica. La combinazione dei campi durante un tirocinio al MITRE e alla Columbia University gli ha dimostrato quanto fosse facile per gli hacker penetrare nei dispositivi IoT (Internet of Things). Nafi dice che vorrebbe essere coinvolto nella ricerca sulla visione artificiale che incorpora “un misto di fisica”. Ha lavorato sulla patologia digitale a Dartmouth.
Choi afferma che anche lui ha intenzione di intraprendere una carriera nella visione artificiale. Dice che gli è piaciuto il progetto Atheia e anche un altro progetto che utilizza la visione artificiale a cui ha lavorato durante un programma di tirocinio per aspiranti scienziati presso la George Mason University, a Fairfax, in Virginia. Khondaker dice che vorrebbe laurearsi in intelligenza artificiale. Gli è piaciuto l’aspetto incentrato sul cliente dello sviluppo di Atheia perché “incontrerai le persone per cui stai progettando il progetto“.