L'intelligence artificielle DeepMind a créé une base de données contenant les structures 3D de presque toutes les protéines connues de la science

Par: Michael Korgs | 29.07.2022, 16:43

L'année dernière, Google DeepMind a publié une base de données de protéines en libre accès contenant des images 3D de centaines de milliers de protéines, dont les 20 000 protéines humaines connues. La base de données AlphaFold sur la structure des protéines a maintenant été étendue à 200 millions d'enregistrements, incluant presque toutes les protéines découvertes.

Les protéines sont les bêtes de somme des cellules vivantes. Elles remplissent un large éventail de fonctions essentielles à la survie. Ils sont formés de chaînes d'acides aminés qui se replient en formations tridimensionnelles complexes qui définissent leur fonction. Il est important de comprendre la structure des protéines afin d'étudier leur fonctionnement et comment quelque chose peut mal tourner, ce qui est crucial pour la recherche dans des domaines tels que les nouveaux médicaments et traitements, ainsi que la conservation des cultures et des animaux.

Cependant, il est difficile de calculer la structure d'une protéine à partir de ses acides aminés. La résolution de ce type de problème nécessite généralement une puissance de calcul et un travail humain considérables, ce que l'on appelle le "problème du repliement des protéines". En conséquence, les progrès ont été relativement lents au cours de l'histoire.

Jusqu'à ce que la puissante IA DeepMind d'Alphabet soit désignée pour résoudre ce problème. Le système a d'abord été entraîné sur 100 000 structures de protéines connues et a ensuite été capable de prédire les structures de millions d'autres protéines, l'identification de chacune d'entre elles prenant quelques minutes ou secondes, plutôt que des mois ou des années.

En juillet 2021, la base de données de structures protéiques AlphaFold est devenue accessible aux chercheurs. Il comprenait à l'origine plus de 350 000 structures protéiques, dont environ 98,5 % des protéines humaines, ainsi que des protéines de drosophiles, de souris, de levures et d'E. coli. Il a ensuite été étendu pour inclure plus d'un million de structures protéiques provenant de 10 000 espèces d'animaux, de plantes, de bactéries, de champignons et d'autres organismes. Depuis lors, plus de 500 000 scientifiques du monde entier ont utilisé cette base de données pour leurs travaux.

DeepMind vient de publier une énorme mise à jour de la base de données, qui comprend désormais quelque 214 millions de structures provenant d'un million d'espèces. Cela couvre presque toutes les protéines connues de la science, ce qui donne un coup de fouet au traitement des maladies et au développement de vaccins, ainsi qu'à la résistance environnementale et à la résistance aux antibiotiques.

L'ensemble de la base de données des structures protéiques peut être téléchargé à l'adresse suivante : Ensembles de données Google Cloud publiquement disponibles .