La inteligencia artificial DeepMind ha creado una base de datos con las estructuras 3D de casi todas las proteínas conocidas por la ciencia

Por: Michael Korgs | 29.07.2022, 16:43

El año pasado, Google DeepMind publicó una base de datos de proteínas de código abierto que contiene imágenes en 3D de cientos de miles de proteínas, incluidas las 20.000 proteínas humanas conocidas. La base de datos de estructuras proteicas AlphaFold se ha ampliado hasta los 200 millones de registros, incluyendo casi todas las proteínas descubiertas.

Las proteínas son los caballos de batalla de las células vivas, ya que desempeñan una amplia gama de funciones fundamentales para la supervivencia. Están formados por cadenas de aminoácidos que se pliegan en complejas formaciones tridimensionales que definen su función. Es importante entender la estructura de las proteínas para estudiar cómo funcionan y cómo puede fallar algo, lo que es crucial para la investigación en áreas como los nuevos medicamentos y tratamientos, así como la conservación de cultivos y animales.

Sin embargo, calcular la estructura de una proteína a partir de sus aminoácidos es difícil. Para resolver este tipo de cosas suele ser necesaria una considerable capacidad de cálculo y trabajo humano, lo que se denomina "problema de plegado de proteínas". Por ello, el progreso ha sido relativamente lento a lo largo de la historia.

Hasta que la poderosa IA DeepMind de Alphabet fue designada para resolver este problema. El sistema se entrenó inicialmente con 100.000 estructuras proteicas conocidas y posteriormente fue capaz de predecir las estructuras de millones de otras proteínas, y cada una de ellas tardó minutos o segundos en ser identificada, en lugar de meses o años.

En julio de 2021, la base de datos de estructuras de proteínas AlphaFold se puso a disposición de los investigadores. Originalmente incluía más de 350.000 estructuras de proteínas, entre las que se encontraban alrededor del 98,5% de las proteínas humanas, así como las de la mosca de la fruta, el ratón, la levadura y E. coli. Posteriormente se ha ampliado para incluir más de un millón de estructuras proteicas de 10 000 especies de animales, plantas, bacterias, hongos y otros organismos. Desde entonces, más de 500 000 científicos de todo el mundo han utilizado esta base de datos para su trabajo.

DeepMind acaba de publicar una nueva y enorme actualización de la base de datos, que ahora incluye unos 214 millones de estructuras de un millón de especies. Esto abarca casi todas las proteínas conocidas por la ciencia, lo que supone un importante impulso para el tratamiento de enfermedades y el desarrollo de vacunas, así como para la resistencia ambiental y la resistencia a los antibióticos.

La base de datos completa de estructuras de proteínas puede descargarse de . Conjuntos de datos disponibles públicamente en Google Cloud .