Intelligenza artificiale DeepMind ha creato un database con strutture 3D di quasi tutte le proteine conosciute dalla scienza
L'anno scorso, Google DeepMind ha rilasciato un database proteico open source contenente immagini 3D di centinaia di migliaia di proteine, comprese tutte le 20.000 proteine conosciute nel corpo umano. Ora il database della struttura della proteina AlphaFold è stato ampliato a 200 milioni di record, incluse quasi tutte le proteine scoperte.
Le proteine sono i cavalli di battaglia delle cellule viventi, e svolgono un'ampia gamma di funzioni fondamentali per la sopravvivenza. Sono formati da catene di amminoacidi che si ripiegano in complesse formazioni tridimensionali che ne determinano la funzione. È importante comprendere la struttura delle proteine per studiare come funzionano e come le cose possono andare storte, il che è fondamentale per la ricerca in settori quali nuovi farmaci e trattamenti e la conservazione delle colture e degli animali.
Tuttavia, è difficile calcolare la struttura di una proteina in base ai suoi amminoacidi. Capire questo genere di cose di solito richiede molta potenza di calcolo e lavoro umano, che è chiamato il "problema del ripiegamento delle proteine". Di conseguenza, il progresso è stato relativamente lento nel corso della storia.
Finora, la potente DeepMind AI di Alphabet non è stata assegnata per risolvere questo problema. Inizialmente addestrato su 100.000 strutture proteiche conosciute, il sistema è stato successivamente in grado di prevedere le strutture di milioni di altre proteine, ciascuna delle quali impiega minuti o secondi per essere determinata, anziché mesi o anni.
Nel luglio 2021, il database della struttura della proteina AlphaFold è diventato disponibile per i ricercatori. Originariamente comprendeva oltre 350.000 strutture proteiche, tra cui circa il 98,5% delle proteine umane, nonché le proteine del moscerino della frutta, del topo, del lievito e dell'E. coli. Da allora è stato ampliato per includere oltre un milione di strutture proteiche da oltre 10.000 specie di animali, piante, batteri, funghi e altri organismi. Da allora, più di 500.000 scienziati di tutto il mondo hanno utilizzato questo database per il loro lavoro.
DeepMind ha appena rilasciato un nuovo enorme aggiornamento del database che ora include circa 214 milioni di strutture di un milione di specie. Questo copre quasi tutte le proteine note alla scienza, fornendo un notevole impulso al trattamento delle malattie e allo sviluppo di vaccini, nonché alla resistenza ambientale e agli antibiotici.
L'intero database delle strutture proteiche può essere scaricato da Set di dati pubblici di Google Cloud .