Software para leer códigos genéticos alternativos

Yekaterina “Kate” Shulgina era una estudiante de primer año en la Escuela de Graduados en Artes y Ciencias de la Universidad de Harvard, y buscaba un proyecto corto de biología computacional para poder verificar el requisito de su programa en biología de sistemas. 

Se preguntó cómo el código genético, que alguna vez se pensó que era universal, podría evolucionar y cambiar.

Eso fue en 2016 y hoy Shulgina ha salido al otro lado de ese proyecto a corto plazo con una forma de descifrar este misterio genético. Ella lo describe en un nuevo artículo en la revista eLife con el biólogo de Harvard Sean Eddy.

El informe detalla un nuevo programa informático que puede leer la secuencia del genoma de cualquier organismo y luego determinar su código genético. 

El programa, llamado Codetta, tiene el potencial de ayudar a los científicos a ampliar su comprensión de cómo evoluciona el código genético e interpretar correctamente el código genético de los organismos recién secuenciados.

“Esto en sí mismo es una cuestión de biología muy fundamental”, dijo Shulgina, quien realiza su investigación de posgrado en Eddy’s Lab.

El código genético es el conjunto de reglas que le dice a las células cómo interpretar las combinaciones de nucleótidos de tres letras en proteínas, a las que a menudo se hace referencia como los componentes básicos de la vida. 

Casi todos los organismos, desde E. coli hasta los humanos, utilizan el mismo código genético. 

Es por eso que alguna vez se pensó que el código estaba escrito en piedra. 

Pero los científicos han descubierto un puñado de valores atípicos (organismos que usan códigos genéticos alternativos) donde el conjunto de instrucciones es diferente.

Aquí es donde Codetta puede brillar. El programa puede ayudar a identificar más organismos que utilizan estos códigos genéticos alternativos, ayudando a arrojar nueva luz sobre cómo los códigos genéticos pueden incluso cambiar en primer lugar.

“Comprender cómo sucedió esto nos ayudaría a reconciliar por qué originalmente pensamos que esto era imposible … y cómo funcionan realmente estos procesos realmente fundamentales”, dijo Shulgina.

Codetta ya ha analizado las secuencias del genoma de más de 250.000 bacterias y otros organismos unicelulares llamados arqueas en busca de códigos genéticos alternativos, y ha identificado cinco que nunca se han visto. 

En los cinco casos, el código para el amino ácido arginina fue reasignado a un aminoácido diferente. 

Se cree que marca la primera vez que los científicos han visto este cambio en las bacterias y podría insinuar las fuerzas evolutivas que intervienen en la alteración del código genético.

Los investigadores dicen que el estudio marca el examen más grande de códigos genéticos alternativos. 

Codetta esencialmente analizó todos los genomas disponibles para bacterias y arqueas. 

El nombre del programa es un cruce entre los codones, la secuencia de tres nucleótidos que forma fragmentos del código genético, y Rosetta Stone, una losa de roca inscrita en tres idiomas.

El trabajo marca un momento culminante para Shulgina, quien pasó los últimos cinco años desarrollando la teoría estadística detrás de Codetta, escribiendo el programa, probándolo y luego analizando los genomas. 

Funciona leyendo el genoma de un organismo y luego aprovechando una base de datos de proteínas conocidas para producir un código genético probable. 

Se diferencia de otros métodos similares por la escala a la que puede analizar los genomas.

Shulgina se unió al laboratorio de Eddy, que se especializa en comparar genomas, en 2016 después de acudir a él para pedirle consejo sobre el algoritmo que estaba diseñando para interpretar códigos genéticos.

Hasta ahora, nadie ha realizado un estudio tan amplio de códigos genéticos alternativos.

“Fue genial ver códigos nuevos, porque por lo que sabíamos, Kate haría todo este trabajo y no habría ninguno nuevo que encontrar”, dijo Eddy, quien también es investigador médico de Howard Hughes. También señaló el potencial del sistema para ser utilizado para garantizar la precisión de las muchas bases de datos que albergan secuencias de proteínas.

“Muchas secuencias de proteínas en las bases de datos en estos días son sólo traducciones conceptuales de secuencias de ADN genómico “, dijo Eddy. “La gente extrae estas secuencias de proteínas para todo tipo de cosas útiles, como nuevas enzimas o nuevas herramientas de edición de genes y todo eso. Me gustaría que esas secuencias de proteínas fueran precisas, pero si el organismo está utilizando un código no estándar, se traducirán erróneamente “.

Los investigadores dicen que el siguiente paso del trabajo es utilizar Codetta para buscar códigos alternativos en virus, eucariotas y genomas orgánulos como mitocondrias y cloroplastos.

“Todavía hay mucha diversidad en la vida en la que aún no hemos realizado esta evaluación sistemática”, dijo Shulgina.

Referencia: “A computational screen for alternative genetic codes in over 250,000 genomes” by Yekaterina Shulgina and Sean R Eddy, 9 November 2021, eLife.
DOI: 10.7554/eLife.71402

Dejá una respuesta