Recentemente si è sviluppato un programma di intelligenza artificiale, chiamato ProGen, che utilizza la previsione next-token per assemblare sequenze di amminoacidi e trasformarle in proteine artificiali. Il risultato è stato ottenuto con la formazione di un modello che permette di conoscere la composizione delle proteine. È la prima volta che un esperimento utilizza l’AI per sintetizzare le proteine umane.
Gli elementi costitutivi delle proteine sono gli amminoacidi, si tratta di piccole molecole organiche costituite da un atomo di carbonio-α (centrale) collegato a: un gruppo amminico (-NH2), un gruppo carbossilico (-COOH), un atomo di idrogeno (-H) ed una componente variabile (-R) detto catena laterale. All’interno di una proteina, più amminoacidi sono legati tra loro con legami peptidici che formano una lunga catena. Questi legami sono creati da una reazione biochimica che elimina una molecola d’acqua mentre unisce il gruppo amminico di un amminoacido al gruppo carbossilico di quello vicino.
Vi sono quattro tipologie di strutture proteiche:
Le proteine sono molecole grandi e complesse che svolgono molteplici funzioni nel corpo. Si occupano della maggior parte del lavoro nelle cellule e sono necessarie per: la struttura, la funzione e la regolazione dei tessuti e degli organi dell’organismo. Queste, dunque, possono essere descritte in base alla loro vasta gamma di funzioni e vengono suddivise in diverse tipologie tra cui:
Tipologia | Descrizione |
Anticorpo | Gli anticorpi aiutano l’organismo a difendersi dai corpi estranei, si legano a specifiche particelle come virus e batteri. |
Enzima | Gli enzimi svolgono quasi tutte le reazioni chimiche che avvengono nelle cellule. Aiutano anche con la formazione di nuove molecole leggendo le informazioni genetiche immagazzinate nel DNA. |
Messaggero | Le proteine con questo ruolo come alcuni tipi di ormoni, trasmettono segnali per coordinare i processi biologici tra diverse cellule, tessuti e organi. |
Componente strutturale | Queste proteine forniscono struttura e supporto alle cellule. |
Trasporto | Queste tipologia di proteine si lega e trasporta piccole molecole all’interno delle cellule ed in tutto il corpo. |
I modelli del linguaggio deep-learning propongono costantemente scoperte promettenti in varie applicazioni biotecnologiche, tra cui l’ingegneria delle proteine. ProGen è un modello in grado di generare sequenze proteiche con una funzione prevedibile rispetto a grandi famiglie di proteine già note. Lo scopo di questo progetto è quello di provare a produrre nuove tipologie di proteine in grado di replicare determinate funzioni; in questo caso i ricercatori hanno tentato di replicare un enzima, il Lisozima, presente nell’albume delle uova di gallina.
Il Lisozima è una proteina di ~14 kDa presente in molte secrezioni mucose (lacrime, saliva e muco) e nei tessuti di animali e piante. Questa svolge un ruolo importante nell’immunità innata, fornendo protezione contro batteri, virus e funghi. L’azione antibatterica del Lisozima è particolarmente efficace contro i batteri Gram-positivi a causa della sua capacità di idrolizzare il legame β-1,4-glicosidico presente nello strato polisaccaridico delle pareti cellulari di questi batteri. L’albume d’uovo è la fonte più ricca di questo enzima ed è costituito da circa lo 0,3% di Lisozima. Questo enzima, inoltre, rappresenta il 3,4-5,8% delle proteine totali dell’albume.
Si è analizzato il modello su 280 milioni di sequenze proteiche di oltre 19.000 famiglie e si è arricchito il tutto con tag di controllo. Per le proteine, i tag di controllo sono caratteristiche come: famiglia di provenienza, processo biologico e funzione molecolare. Queste informazioni sono disponibili per molte sequenze nei database pubblici delle proteine. Durante i test del progetto si sono create proteine artificiali partendo da 5 famiglie distinte di lisozimi. Gli enzimi ottenuti mostrano caratteristiche catalitiche simili a quelle dei lisozimi naturali. Per valutare la funzione, le molecole ottenute sono state sintetizzate e purificate tramite sintesi proteica cell-free e cromatografia di affinità. Nel set di controllo, il 72% è risultato ben espresso dalla misura dei picchi della cromatografia e dalla visualizzazione della banda. Le proteine generate da ProGen si esprimono ugualmente bene in tutte le categorie di identità di sequenza rispetto a qualsiasi proteina naturale nota.
Le applicazioni del modello ProGen potrebbero includere la generazione di librerie sintetiche di proteine funzionali utili per la ricerca e/o per l’ottimizzazione iterativa. In combinazione con fonti sempre crescenti di dati di sequenza e tag di controllo più espressivi, il progetto presenta il potenziale per essere utilizzato per una progettazione precisa de novo di proteine che possano risolvere problemi biologici, medici e ambientali.