Las predicciones de estructura de proteínas de IA de AlphaFold tienen límites

0
3
Las predicciones de estructura de proteínas de IA de AlphaFold tienen límites

Mientras la gente de todo el mundo se maravillaba en julio con las imágenes más detalladas del cosmos tomadas por el telescopio espacial James Webb, los biólogos vieron por primera vez un conjunto diferente de imágenes, que podrían ayudar a revolucionar la investigación en ciencias de la vida.

Las imágenes son las formas tridimensionales predichas de más de 200 millones de proteínas, representadas por un sistema de inteligencia artificial llamado AlphaFold. “Se puede pensar que cubre todo el universo de las proteínas”, dijo Demis Hassabis en una conferencia de prensa el 26 de julio. Hassabis es cofundador y director ejecutivo de DeepMind, la empresa con sede en Londres que creó el sistema. Combinando varias técnicas de aprendizaje profundo, el programa de computadora está capacitado para predecir formas de proteínas mediante el reconocimiento de patrones en estructuras que ya se han resuelto a través de décadas de trabajo experimental utilizando microscopios electrónicos y otros métodos.

La primera aparición de la IA se produjo en 2021, con predicciones para 350 000 estructuras de proteínas, incluidas casi todas las proteínas humanas conocidas. DeepMind se asoció con el Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular para que las estructuras estén disponibles en una base de datos pública.

El nuevo lanzamiento masivo de julio amplió la biblioteca a “casi todos los organismos del planeta cuyo genoma ha sido secuenciado”, dijo Hassabis. “Puede buscar una estructura tridimensional de una proteína casi tan fácilmente como hacer una búsqueda de palabras clave en Google”.

Estas son predicciones, no estructuras reales. Sin embargo, los investigadores han utilizado algunas de las predicciones de 2021 para desarrollar posibles vacunas contra la malaria, mejorar la comprensión de la enfermedad de Parkinson, descubrir cómo proteger la salud de las abejas, obtener información sobre la evolución humana y más. DeepMind también ha centrado AlphaFold en enfermedades tropicales desatendidas, como la enfermedad de Chagas y la leishmaniasis, que pueden ser debilitantes o letales si no se tratan.

Muchos científicos recibieron con entusiasmo la publicación del vasto conjunto de datos. Pero a otros les preocupa que los investigadores tomen las estructuras predichas como las verdaderas formas de las proteínas. Todavía hay cosas que AlphaFold no puede hacer, y no fue diseñado para hacer, que deben abordarse antes de que el cosmos de proteínas se enfoca por completo.

Tener el nuevo catálogo abierto para todos es “un gran beneficio”, dice Julie Forman-Kay, biofísica de proteínas en el Hospital for Sick Children y la Universidad de Toronto. En muchos casos, AlphaFold y RoseTTAFold, otros investigadores de IA que están entusiasmados, predicen formas que coinciden bien con los perfiles de proteínas de los experimentos. Pero, advierte, “no es así en todos los ámbitos”.

Las predicciones son más precisas para algunas proteínas que para otras. Las predicciones erróneas podrían hacer que algunos científicos piensen que entienden cómo funciona una proteína cuando en realidad no es así. Los minuciosos experimentos siguen siendo cruciales para comprender cómo se pliegan las proteínas, dice Forman-Kay. “Existe la sensación ahora de que las personas no tienen que hacer una determinación experimental de la estructura, lo cual no es cierto”.

Progreso laborioso

Las proteínas comienzan como largas cadenas de aminoácidos y se pliegan en una gran cantidad de florituras y otras formas tridimensionales. Algunos se asemejan a los apretados tirabuzones de una permanente de los 80 o los pliegues de un acordeón. Otros podrían confundirse con los garabatos en espiral de un niño.

La arquitectura de una proteína es más que solo estética; puede determinar cómo funciona esa proteína. Por ejemplo, las proteínas llamadas enzimas necesitan un bolsillo donde puedan capturar pequeñas moléculas y llevar a cabo reacciones químicas. Y las proteínas que funcionan en un complejo de proteínas, dos o más proteínas que interactúan como partes de una máquina, necesitan las formas correctas para encajar en la formación con sus socios.

Conocer los pliegues, espirales y bucles de la forma de una proteína puede ayudar a los científicos a descifrar cómo, por ejemplo, una mutación altera esa forma para causar una enfermedad. Ese conocimiento también podría ayudar a los investigadores a fabricar mejores vacunas y medicamentos.

Durante años, los científicos han bombardeado cristales de proteínas con rayos X, han congelado células y las han examinado con microscopios electrónicos de alta potencia, y han utilizado otros métodos para descubrir los secretos de las formas de las proteínas. Tales métodos experimentales toman “mucho tiempo del personal, mucho esfuerzo y mucho dinero. Así que ha sido lento”, dice Tamir Gonen, biofísico de membranas e investigador del Instituto Médico Howard Hughes en la Escuela de Medicina David Geffen de la UCLA.

Un trabajo experimental tan meticuloso y costoso ha descubierto las estructuras tridimensionales de más de 194 000 proteínas, cuyos archivos de datos se almacenan en el Protein Data Bank, respaldado por un consorcio de organizaciones de investigación. Pero el ritmo acelerado al que los genetistas están descifrando las instrucciones del ADN para hacer proteínas ha superado con creces la capacidad de los biólogos estructurales para mantenerse al día, dice el biólogo de sistemas Nazim Bouatta de la Facultad de Medicina de Harvard. “La pregunta para los biólogos estructurales era, ¿cómo cerramos la brecha?” él dice.

Para muchos investigadores, el sueño ha sido tener programas de computadora que pudieran examinar el ADN de un gen y predecir cómo la proteína que codifica se plegaría en una forma tridimensional.

Aquí viene AlphaFold

Durante muchas décadas, los científicos progresaron hacia ese objetivo de IA. Pero “hasta hace dos años, estábamos muy lejos de encontrar una buena solución”, dice John Moult, biólogo computacional del campus de Rockville de la Universidad de Maryland.

Moult es uno de los organizadores de una competencia: la Evaluación crítica de la predicción de la estructura de proteínas, o CASP. Los organizadores dan a los competidores un conjunto de proteínas para que sus algoritmos las plieguen y comparen las predicciones de las máquinas con estructuras determinadas experimentalmente. La mayoría de las IA no lograron acercarse a las formas reales de las proteínas.

“La estructura no te dice todo sobre cómo funciona una proteína”.

Jane Dyson

Luego, en 2020, AlphaFold apareció a lo grande, prediciendo las estructuras del 90 por ciento de las proteínas de prueba con alta precisión, incluidos dos tercios con una precisión que rivaliza con los métodos experimentales.

Descifrar la estructura de proteínas individuales había sido el núcleo de la competencia CASP desde su inicio en 1994. Con el desempeño de AlphaFold, “de repente, eso estaba hecho”, dice Moult.

Desde el lanzamiento de AlphaFold en 2021, más de medio millón de científicos han accedido a su base de datos, dijo Hassabis en la rueda de prensa. Algunos investigadores, por ejemplo, han usado las predicciones de AlphaFold para ayudarlos a estar más cerca de completar un enorme rompecabezas biológico: el complejo de poros nucleares. Los poros nucleares son portales clave que permiten que las moléculas entren y salgan de los núcleos celulares. Sin los poros, las células no funcionarían correctamente. Cada poro es enorme, relativamente hablando, compuesto por unas 1.000 piezas de unas 30 proteínas diferentes. Los investigadores habían logrado previamente colocar alrededor del 30 por ciento de las piezas del rompecabezas.

Ese rompecabezas ahora está completo en casi un 60 por ciento, después de combinar las predicciones de AlphaFold con técnicas experimentales para comprender cómo encajan las piezas, informaron los investigadores en la edición del 10 de junio. Ciencias.

Ahora que AlphaFold prácticamente ha resuelto cómo plegar proteínas individuales, los organizadores de CASP de este año están pidiendo a los equipos que trabajen en los próximos desafíos: predecir las estructuras de las moléculas de ARN y modelar cómo las proteínas interactúan entre sí y con otras moléculas.

Para ese tipo de tareas, dice Many, los métodos de IA de aprendizaje profundo “parecen prometedores, pero aún no han dado los frutos”.

Donde la IA se queda corta

Ser capaz de modelar las interacciones de proteínas sería una gran ventaja porque la mayoría de las proteínas no funcionan de forma aislada. Trabajan con otras proteínas u otras moléculas en las células. Pero la precisión de AlphaFold para predecir cómo podrían cambiar las formas de dos proteínas cuando las proteínas interactúan “no se acerca” a la de sus proyecciones puntuales para una gran cantidad de proteínas individuales, dice Forman-Kay, biofísico de proteínas de la Universidad de Toronto. Eso es algo que los creadores de AlphaFold también reconocen.

La IA entrenó para plegar proteínas examinando los contornos de estructuras conocidas. Y se han resuelto experimentalmente muchos menos complejos multiproteicos que proteínas individuales.

Forman-Kay estudia proteínas que se niegan a ser confinadas a una forma particular. Estas proteínas intrínsecamente desordenadas suelen ser tan blandas como los fideos húmedos (SN: 9/2/13, pág. 26). Algunos se plegarán en formas definidas cuando interactúen con otras proteínas o moléculas. Y pueden plegarse en nuevas formas cuando se combinan con diferentes proteínas o moléculas para realizar diversos trabajos.

Las formas predichas de AlphaFold alcanzan un alto nivel de confianza para alrededor del 60 por ciento de las proteínas onduladas que examinaron Forman-Kay y sus colegas, informó el equipo en un estudio preliminar publicado en febrero en bioRxiv.org. A menudo, el programa representa a los cambiaformas como largos sacacorchos llamados hélices alfa.

El grupo de Forman-Kay comparó las predicciones de AlphaFold para tres proteínas desordenadas con datos experimentales. La estructura que la IA asignó a una proteína llamada alfa-sinucleína se asemeja a la forma que toma la proteína cuando interactúa con los lípidos, encontró el equipo. Pero esa no es la apariencia de la proteína todo el tiempo.

Para otra proteína, llamada proteína 2 de unión al factor de iniciación de la traducción eucariótica 4E, AlphaFold predijo una mezcla de las dos formas de la proteína cuando se trabaja con dos socios diferentes. Esa estructura de Frankenstein, que no existe en los organismos reales, podría confundir a los investigadores sobre cómo funciona la proteína, dicen Forman-Kay y sus colegas.

AlphaFold también puede ser demasiado rígido en sus predicciones. Una “estructura estática no te dice todo sobre cómo funciona una proteína”, dice Jane Dyson, bióloga estructural del Instituto de Investigación Scripps en La Jolla, California. Incluso las proteínas individuales con estructuras generalmente bien definidas no se congelan en el espacio. Las enzimas, por ejemplo, sufren pequeños cambios de forma cuando conducen reacciones químicas.

Si le pide a AlphaFold que prediga la estructura de una enzima, mostrará una imagen fija que puede parecerse mucho a lo que los científicos han determinado mediante cristalografía de rayos X, dice Dyson. “Objetivo [it will] No le mostraré ninguna de las sutilezas que están cambiando a medida que los diferentes socios interactúan con la enzima.

“La dinámica es lo que el Sr. AlphaFold no puede brindarle”, dice Dyson.

Una revolución en ciernes

Las representaciones por computadora les dan a los biólogos una ventaja para resolver problemas tales como cómo un fármaco podría interactuar con una proteína. Pero los científicos deben recordar una cosa: “Estos son modelos”, no estructuras descifradas experimentalmente, dice Gonen, de la UCLA.

Utiliza las predicciones de proteínas de AlphaFold para ayudar a dar sentido a los datos experimentales, pero le preocupa que los investigadores acepten las predicciones de la IA como un evangelio. Si eso sucede, “el riesgo es que se vuelva más y más difícil justificar por qué necesitas resolver una estructura experimental”. Eso podría conducir a una reducción de la financiación, el talento y otros recursos para los tipos de experimentos necesarios para comprobar el trabajo de la computadora y abrir nuevos caminos, dice.

Bouatta, de la Escuela de Medicina de Harvard, es más optimista. Él piensa que los investigadores probablemente no necesitan invertir recursos experimentales en los tipos de proteínas que AlphaFold hace un buen trabajo de predicción, lo que debería ayudar a los biólogos estructurales a clasificar dónde poner su tiempo y dinero.

“Hay proteínas por las que AlphaFold todavía está luchando”, está de acuerdo Bouatta. Los investigadores deberían gastar su capital allí, dice. “Tal vez si generamos más [experimental] datos para esas proteínas desafiantes, podríamos usarlos para volver a entrenar otro sistema de IA” que podría hacer predicciones aún mejores.

Él y sus colegas ya han realizado ingeniería inversa de AlphaFold para hacer una versión llamada OpenFold que los investigadores pueden entrenar para resolver otros problemas, como esos complejos de proteínas retorcidos pero importantes.

Grandes cantidades de ADN generado por el Proyecto Genoma Humano han hecho posible una amplia gama de descubrimientos biológicos y han abierto nuevos campos de investigación (SN: 2/12/22, pág. 22). Tener información estructural sobre 200 millones de proteínas podría ser igualmente revolucionario, dice Bouatta.

En el futuro, gracias a AlphaFold y sus parientes de IA, dice, “ni siquiera sabemos qué tipo de preguntas podríamos estar haciendo”.

LEAVE A REPLY

Please enter your comment!
Please enter your name here