OpenAI lance GPT-Rosalind : une IA pour dompter le chaos de la biologie moderne
OpenAI vient de lever le voile sur GPT-Rosalind, un modèle de langage d'envergure conçu spécifiquement pour les flux de travail complexes de la biologie. Contrairement aux modèles généralistes qui essaient de tout faire (et parfois n'importe quoi), celui-ci a été éduqué dans les laboratoires numériques pour devenir l'allié des chercheurs en sciences de la vie. Le nom n'est pas choisi au hasard : il rend hommage à Rosalind Franklin, dont les travaux sur la diffraction des rayons X ont été cruciaux pour la découverte de la structure de l'ADN.
Sortir du labyrinthe de données
Le constat de départ est simple : la biologie moderne est noyée sous les données. Entre le séquençage du génome et la biochimie des protéines accumulés depuis des décennies, un chercheur humain ne peut plus tout absorber. Yunyun Wang (Yunyun Wang), responsable des produits pour les sciences de la vie chez OpenAI, souligne que le modèle a été entraîné sur 50 des flux de travail biologiques les plus courants. L'idée est de briser les silos entre les sous-domaines ultra-spécialisés. Un généticien travaillant sur un gène cérébral pourra enfin comprendre la littérature neurobiologique sans avoir besoin d'un traducteur spécialisé.
Nous connectons le génotype au phénotype par le biais de voies connues et de mécanismes de régulation, nous déduisons les propriétés structurelles ou fonctionnelles probables des protéines, et nous exploitons réellement cette compréhension mécaniste.
Un scepticisme programmé contre la « fayoterie »
L'un des points les plus intrigants de cette annonce concerne la personnalité du modèle. OpenAI affirme avoir ajusté GPT-Rosalind pour qu'il soit plus sceptique. En d'autres termes, on a essayé de corriger la tendance naturelle des LLM à la sycophancie (le fait de toujours abonder dans le sens de l'utilisateur) et à l'enthousiasme excessif. Si une cible de médicament est médiocre, le modèle est censé vous le dire franchement au lieu de valider vos hypothèses bancales par pur esprit de complaisance algorithmique.
Le système est capable de suggérer des voies biologiques probables et de hiérarchiser les cibles thérapeutiques potentielles. On nous promet des capacités de « raisonnement » et un niveau d'expertise validé par des benchmarks internes. Reste à voir si le problème chronique des hallucinations, qui transforme parfois les faits scientifiques en science-fiction, a été réellement résolu ou simplement camouflé derrière un jargon technique plus convaincant.
Sécurité maximale et accès restreint
Évidemment, donner un tel outil à tout le monde comporte des risques évidents. OpenAI craint que des esprits mal intentionnés n'utilisent le modèle pour optimiser l'infectiosité d'un virus, par exemple. En conséquence, l'accès est pour l'instant limité aux entités basées aux États-Unis via une structure de déploiement « de confiance ». Pour les chercheurs internationaux, il faudra se contenter d'un plugin de recherche en sciences de la vie nettement plus limité qui sera rendu public prochainement.
Pendant que GPT-Rosalind tente de percer les secrets de notre code génétique, d'autres machines se concentrent sur des prouesses plus physiques. C'est le cas du Toyota CUE7, un robot basketteur dont la précision ferait presque pâlir les plus grandes stars de la NBA.