Home / Ingegneria cellulare e tissutale / ProGen: AI crea nuove proteine artificiali mai viste prima

ProGen: AI crea nuove proteine artificiali mai viste prima

progen

Il progetto ProGen.

Recentemente si è sviluppato un programma di intelligenza artificiale, chiamato ProGen, che utilizza la previsione next-token per assemblare sequenze di amminoacidi e trasformarle in proteine artificiali. Il risultato è stato ottenuto con la formazione di un modello che permette di conoscere la composizione delle proteine. È la prima volta che un esperimento utilizza l’AI per sintetizzare le proteine umane.

proteina
Illustrazione 3D di una proteina.

Che cosa sono le proteine?

Gli elementi costitutivi delle proteine sono gli amminoacidi, si tratta di piccole molecole organiche costituite da un atomo di carbonio-α (centrale) collegato a: un gruppo amminico (-NH2), un gruppo carbossilico (-COOH), un atomo di idrogeno (-H) ed una componente variabile (-R) detto catena laterale. All’interno di una proteina, più amminoacidi sono legati tra loro con legami peptidici che formano una lunga catena. Questi legami sono creati da una reazione biochimica che elimina una molecola d’acqua mentre unisce il gruppo amminico di un amminoacido al gruppo carbossilico di quello vicino.

amminoacido
Struttura di un amminoacido.

Strutture possibili delle proteine

Vi sono quattro tipologie di strutture proteiche:

  • Primaria: si tratta di una sequenza lineare di amminoacidi;
  • Secondaria: è la conformazione spaziale di blocchi costruttivi di catene, comprende le strutture ad α-elica e β-foglietto, questi modelli sono abbastanza stabili;
  • Terziaria: questa struttura ha origine dal ripiegamento nello spazio della catena polipeptidica che assume una struttura 3D e si ottiene dopo che la catena ha già le sue strutture primarie e e secondarie stabili;
  • Quaternaria: si riferisce a quelle macromolecole con più catene o subunità polipeptidiche.
struttura proteine
Le possibili strutture delle proteine.

Tipologie di proteine e corrispettivi ruoli

Le proteine sono molecole grandi e complesse che svolgono molteplici funzioni nel corpo. Si occupano della maggior parte del lavoro nelle cellule e sono necessarie per: la struttura, la funzione e la regolazione dei tessuti e degli organi dell’organismo. Queste, dunque, possono essere descritte in base alla loro vasta gamma di funzioni e vengono suddivise in diverse tipologie tra cui:

TipologiaDescrizione
AnticorpoGli anticorpi aiutano l’organismo a difendersi dai corpi estranei, si legano a specifiche particelle come virus e batteri.
EnzimaGli enzimi svolgono quasi tutte le reazioni chimiche che avvengono nelle cellule. Aiutano anche con la formazione di nuove molecole leggendo le informazioni genetiche immagazzinate nel DNA.
MessaggeroLe proteine con questo ruolo come alcuni tipi di ormoni, trasmettono segnali per coordinare i processi biologici tra diverse cellule, tessuti e organi.
Componente strutturaleQueste proteine forniscono struttura e supporto alle cellule.
TrasportoQueste tipologia di proteine si lega e trasporta piccole molecole all’interno delle cellule ed in tutto il corpo.
Tabella riassuntiva delle principali tipologie di proteine.
IgG
Immunoglobulina G (IgG): si tratta di una proteina che rientra tra gli anticorpi – Credits: US National Library of Medicine

ProGen: cos’è?

I modelli del linguaggio deep-learning propongono costantemente scoperte promettenti in varie applicazioni biotecnologiche, tra cui l’ingegneria delle proteine. ProGen è un modello in grado di generare sequenze proteiche con una funzione prevedibile rispetto a grandi famiglie di proteine già note. Lo scopo di questo progetto è quello di provare a produrre nuove tipologie di proteine in grado di replicare determinate funzioni; in questo caso i ricercatori hanno tentato di replicare un enzima, il Lisozima, presente nell’albume delle uova di gallina.

ProGen
Generazione di proteine artificiali con il modello ProGen – Credits: Nature Biotechnology

Lisozima: di cosa si tratta?

Il Lisozima è una proteina di ~14 kDa presente in molte secrezioni mucose (lacrime, saliva e muco) e nei tessuti di animali e piante. Questa svolge un ruolo importante nell’immunità innata, fornendo protezione contro batteri, virus e funghi. L’azione antibatterica del Lisozima è particolarmente efficace contro i batteri Gram-positivi a causa della sua capacità di idrolizzare il legame β-1,4-glicosidico presente nello strato polisaccaridico delle pareti cellulari di questi batteri. L’albume d’uovo è la fonte più ricca di questo enzima ed è costituito da circa lo 0,3% di Lisozima. Questo enzima, inoltre, rappresenta il 3,4-5,8% delle proteine totali dell’albume.

Lisozima
Struttura molecolare del Lisozima.

Un po’ di dati in merito al modello ProGen

Si è analizzato il modello su 280 milioni di sequenze proteiche di oltre 19.000 famiglie e si è arricchito il tutto con tag di controllo. Per le proteine, i tag di controllo sono caratteristiche come: famiglia di provenienza, processo biologico e funzione molecolare. Queste informazioni sono disponibili per molte sequenze nei database pubblici delle proteine. Durante i test del progetto si sono create proteine artificiali partendo da 5 famiglie distinte di lisozimi. Gli enzimi ottenuti mostrano caratteristiche catalitiche simili a quelle dei lisozimi naturali. Per valutare la funzione, le molecole ottenute sono state sintetizzate e purificate tramite sintesi proteica cell-free e cromatografia di affinità. Nel set di controllo, il 72% è risultato ben espresso dalla misura dei picchi della cromatografia e dalla visualizzazione della banda. Le proteine generate da ProGen si esprimono ugualmente bene in tutte le categorie di identità di sequenza rispetto a qualsiasi proteina naturale nota.

Possibili prospettive future della nuova scoperta

Le applicazioni del modello ProGen potrebbero includere la generazione di librerie sintetiche di proteine funzionali utili per la ricerca e/o per l’ottimizzazione iterativa. In combinazione con fonti sempre crescenti di dati di sequenza e tag di controllo più espressivi, il progetto presenta il potenziale per essere utilizzato per una progettazione precisa de novo di proteine che possano risolvere problemi biologici, medici e ambientali.