Die künstliche Intelligenz DeepMind hat eine Datenbank mit 3D-Strukturen fast aller der Wissenschaft bekannten Proteine erstellt
Letztes Jahr veröffentlichte Google DeepMind eine Open-Source-Protein-Datenbank mit 3D-Bildern von Hunderttausenden von Proteinen, darunter alle 20.000 bekannten menschlichen Proteine. Die AlphaFold-Proteinstrukturdatenbank wurde inzwischen auf 200 Millionen Datensätze erweitert, die fast alle entdeckten Proteine enthalten.
Proteine sind die Arbeitspferde der lebenden Zellen, die eine Vielzahl von überlebenswichtigen Funktionen erfüllen. Sie werden aus Aminosäureketten gebildet, die sich zu komplexen dreidimensionalen Gebilden falten, die ihre Funktion bestimmen. Es ist wichtig, die Struktur von Proteinen zu verstehen, um zu untersuchen, wie sie funktionieren und wie etwas schief gehen kann, was für die Forschung in Bereichen wie neue Medikamente und Behandlungen sowie für die Erhaltung von Pflanzen und Tieren von entscheidender Bedeutung ist.
Es ist jedoch schwierig, die Struktur eines Proteins auf der Grundlage seiner Aminosäuren zu berechnen. Um so etwas herauszufinden, bedarf es in der Regel erheblicher Rechenleistung und menschlicher Arbeit, was als "Proteinfaltungsproblem" bezeichnet wird. Infolgedessen ist der Fortschritt im Laufe der Geschichte relativ langsam gewesen.
Bis Alphabets leistungsstarke KI DeepMind damit beauftragt wurde, dieses Problem zu lösen. Das System wurde zunächst auf 100.000 bekannte Proteinstrukturen trainiert und war anschließend in der Lage, die Strukturen von Millionen anderer Proteine vorherzusagen, wobei die Identifizierung jedes einzelnen Proteins nur Minuten oder Sekunden dauerte und nicht Monate oder Jahre.
Im Juli 2021 wurde die AlphaFold-Proteinstrukturdatenbank für Forscher zugänglich. Ursprünglich umfasste es mehr als 350.000 Proteinstrukturen, darunter etwa 98,5 % der menschlichen Proteine sowie die von Fruchtfliegen, Mäusen, Hefe und E. coli. In der Folge wurde es auf über eine Million Proteinstrukturen aus 10 000 Tier-, Pflanzen-, Bakterien-, Pilz- und anderen Organismenarten erweitert. Seitdem haben mehr als 500 000 Wissenschaftler aus der ganzen Welt diese Datenbank für ihre Arbeit genutzt.
DeepMind hat soeben ein umfangreiches neues Update der Datenbank veröffentlicht, die nun rund 214 Millionen Strukturen von einer Million Arten enthält. Damit sind fast alle der Wissenschaft bekannten Proteine abgedeckt, was der Behandlung von Krankheiten und der Entwicklung von Impfstoffen sowie der Bekämpfung von Umwelt- und Antibiotikaresistenzen einen bedeutenden Schub verleiht.
Die gesamte Datenbank mit Proteinstrukturen kann von heruntergeladen werden. Öffentlich zugängliche Google Cloud-Datensätze .