El código genético relaciona los grupos de nucleótidos en un ARNm con los aminoácidos en una proteína. Codones de inicio, codones de terminación, marco de lectura.

Introducción

¿Alguna vez le has escrito un mensaje secreto a alguno de tus amigos? Si es así, tal vez hayas usado algún código para mantener el mensaje oculto. Por ejemplo, tal vez hayas reemplazado letras de las palabras con números o símbolos siguiendo un conjunto particular de reglas. Para que tu amigo pueda entender el mensaje, es necesario que conozca el código y aplique el mismo conjunto de reglas, en reversa, para decodificarlo.
Decodificar mensajes también es un paso clave en la expresión génica, donde la información de un gen se lee para construir una proteína. En este artículo revisaremos con más detalle el código genético, el cual permite que las secuencias de ADN y de ARN se "decodifiquen" en los aminoácidos de una proteína.

Antecedentes: fabricación de una proteína

Los genes que contienen instrucciones para generar proteínas se expresan en un proceso de dos pasos.
  • En la transcripción, la secuencia de ADN de un gen se "reescribe" en forma de ARN. En eucariontes, el ARN debe someterse a etapas de procesamiento adicionales para convertirse en ARN mensajero, o ARNm.
  • En la traducción, la secuencia de nucleótidos del ARNm se "traduce" en una secuencia de aminoácidos de un polipéptido (cadena proteica).
Si esto es un nuevo concepto para ti, quizás quieras aprender más viendo el video sobre transcripción y traducción.

Codones

Las células decodifican el ARNm al leer sus nucleótidos en grupos de tres, conocidos como codones. A continuación, algunas características de los codones:
  • La mayoría de los codones especifican un aminoácido
  • Tres codones de "terminación" marcan el fin de una proteína
  • Un codon de "inicio", AUG, marca el comienzo de una proteína y además codifica para el aminoácido metionina.
Los codones en un ARNm se leen durante la traducción; se comienza con un codón de inicio, y se sigue hasta llegar a un codón de terminación. Los codones de ARNm se leen de 5' a 3' y especifican el orden de los animoácidos en una proteína de N-terminal (metionina) hasta C-terminal.
La secuencia del ARNm es:
5'-AUGAUCUCGUAA-5'
La traducción implica leer los nucleótidos del ARNm en grupos de tres, cada uno de los cuales especifica un aminoácido (o proporciona una señal de terminación que indica que ha finalizado la traducción).
3'-AUG AUC UCG UAA-5'
AUG \rightarrow metionina (inicio) AUC \rightarrow isoleucina UCG \rightarrow serina UAA \rightarrow "alto"
Secuencia del polipéptido: (extremo-N) metionina-isoleucina-serina (extremo-C)
Los dos extremos de una cadena de ADN o ARN son diferentes entre sí. En otras palabras, las moléculas de ADN y ARN tienen direccionalidad.
  • En el extremo 5' de la cadena, sobresale el grupo fosfato del primer nucleótido de la cadena. El grupo fosfato se encuentra unido con el carbono 5' del anillo del azúcar y es por lo que se llama extremo 5'.
  • En el otro extremo, llamado extremo 3', sobresale el hidroxilo del último nucleótido añadido a la cadena. El grupo hidroxilo se encuentra unido con el carbono 3' del anillo del azúcar y es por lo que se llama extremo 3'.
Muchos procesos, como la replicación de ADN y la transcripción, solo pueden ocurrir en una dirección particular en relación con la direccionalidad en la cadena de ADN o ARN.
Puedes aprender más en el artículo sobre ácidos nucleicos.
Los polipéptidos (cadenas de aminoácidos unidos) tienen dos extremos distintos:
  • Un extremo N-terminal que tiene un grupo amino expuesto
  • Un extremo C-terminal que tiene un grupo carboxilo expuesto
Durante la traducción, el polipéptido se construye del extremo N-terminal hacia el C-terminal. Puedes aprender más acerca de los extremos N- y C-terminales en el artículo sobre proteínas y aminoácidos.

La tabla del código genético

El conjunto completo de relaciones entre los codones y los aminoácidos (o señales de terminación) se conoce como el código genético. Con frecuencia, el código genético se resume como una tabla.
A primera vista, la tabla de codones puede parecer un poco intimidante. Afortunadamente se encuentra organizada de manera lógica y no es tan difícil de usar una vez que entiendes cómo está organizada.
Para ver cómo funciona la tabla de codones vamos a hacer un ejemplo. Supongamos que nos interesa el codón CAG y queremos saber qué aminoácido codifica.
  1. Primero vemos el lado izquierdo de la tabla. El eje del lado izquierdo indica la primera letra del codón, por lo que buscamos C en el eje izquierdo. Esto nos dice cuál es la fila (amplia) de la tabla en la que estará nuestro codón.
  2. Después vemos el borde superior de la tabla. El eje superior indica la segunda letra del codón, por lo que buscamos A en dicho eje. Esto nos dice cuál es la columna de la tabla en la que estará nuestro codón.
La fila y la columna de los pasos 1 y 2 intersectan en una sola casilla en la tabla de codones, una que contiene 4 codones. Con frecuencia, lo más fácil es simplemente mirar estos cuatro codones para saber cuál es el que estás buscando.
Sin embargo, si quieres usar la estructura de la tabla al máximo, puedes usar el tercer eje (del lado derecho de la tabla) que corresponda con la casilla en la que intersectan las primeras dos letras. Al encontrar el tercer nucleótido del codón en este eje puedes identificar la fila exacta dentro de la casilla en la que se encuentra nuestro codón. Por ejemplo, si buscamos G en este eje encontramos que CAG codifica el aminoácido glutamina (Gln).
Tabla del código genético. Cada secuencia de tres letras de nucleótidos de ARNm corresponde a un aminoácido en específico o a un codón de terminación. UGA, UAG y UAA son codones de terminación. AUG es el codón de metionina además de ser el codón de inicio.
_Crédito de la imagen: "The genetic code", de OpenStax College, Biología (CC BY 3.0).
Observa como en la tabla muchos aminoácidos están representados por más de un codón. Como ejemplo, hay seis formas distintas de "escribir" leucina en el lenguaje del ARNm (trata de ver si puedes encontrar las seis).
Una característica importante del código genético es que es universal. Es decir, con pequeñas excepciones, prácticamente todas las especies (desde las bacterias hasta tú mismo) usan el código genético que se muestra arriba para la síntesis de protéinas.

Marco de lectura

Para llegar de un ARNm a una proteína de manera fiable, necesitamos un concepto adicional: el de marco de lectura. El marco de lectura determina cómo se divide la secuencia de ARNm en codones durante la traducción.
Ese es un concepto bastante abstracto, así que examinemos un ejemplo para entenderlo mejor. El ARNm a continuación puede codificar tres proteínas totalmente diferentes, según el marco de lectura con el que se lea.
Secuencia de ARNm: 5'-UCAUGAUCUCGUAAGA-3'
Lectura en el marco 1:
5'-UCA UGA UCU CGU AAG A-3'
Ser-ALTO-Ser-Arg-Lys
Lectura en el marco 2:
5'-U CAU GAU CUC GUA AGA-3'
His-Asp-Leu-Val-Arg
Lectura en el marco 3:
5'-UC AUG AUC UCG UAA GA-3'
Met (inicio)-Ile-Ser-ALTO
La posición del codón de inicio asegura que se elija el marco 3 para traducir el ARNm.
Así, ¿cómo sabe una célula cuál de estas proteínas hacer? La clave es el codón de inicio. Puesto que la traducción comienza en el codón de inicio y sigue en grupos sucesivos de tres, la posición del codón de inicio asegura que el ARNm se lea en el marco correcto (en el ejemplo anterior, el marco 3).
Las mutaciones (cambios en el ADN) que insertan o eliminan uno o dos nucleótidos pueden cambiar el marco de lectura y causan la producción de una proteína incorrecta "aguas abajo" del lugar de la mutación:
La ilustración muestra una mutación de marco de referencia donde el marco de lectura se altera por la deleción de dos aminoácidos.
_Crédito de la imagen; "El código genético: Figura 3," por OpenStax College, Biology, CC BY 4.0._

¿Cómo se descubrió el código genético?

La historia de cómo se descubrió el código genético es bastante genial y épica. Hemos guardado nuestra versión en la siguiente sección emergente con el fin de no distraerte si tienes prisa. Sin embargo, si tienes un poco de tiempo, sin duda es una lectura interesante.

Descubrimiento del código

Para descifrar el código genético, los investigadores necesitaban averiguar cómo las secuencias de nucleótidos de una molécula de ADN o ARN podían codificar la secuencia de aminoácidos de un polipéptido.
¿Por qué era esto un problema difícil? Imaginemos un código muy simple para darnos una idea. En este código, cada nucleótido en la molécula de ADN o ARN puede codificar un aminoácido en una proteína. Pero en realidad este código no puede funcionar ya que comunmente existen 2020 animoácidos en las proteínas y solo 44 bases de nucleótidos en el ADN o ARN.
Entonces, el código tenía que implicar algo más complejo que una correspondencia de uno a uno entre los nucleótidos y los aminoácidos. ¿Pero qué?

La hipótesis del triplete

A mediados de la década de 1950, el físico George Gamow amplió esta línea de pensamiento y predijo que probablemente el código genético estaba compuesto de tripletes de nucleótidos1^1. En otras palabras, propuso que un grupo de 33 nucleótidos en un gen podrían codificar un aminoácido en una proteína.
El razonamiento de Gamow era que incluso un código de dobletes (22 nucelótidos por aminoácido) tampoco funcionaría, puesto que solo permitiría 1616 grupos ordenados de nucleótidos (424^2), insuficientes para representar los 2020 aminoácidos que normalmente se usan para generar proteínas. No obstante, un código basado en tripletes parecía prometedor: dicho código permite 6464 secuencias únicas de nucleótidos (434^3), más que suficientes para cubrir los 2020 aminoácidos.
Gamow tenía algunas otras ideas no tan correctas sobre cómo se leería el código (por ejemplo, pensaba que los tripletes se traslapaban, y ahora sabemos que no es el caso)1^1. Sin embargo, su idea principal —que un código de tripletes era lo "mínimo" que podría cubrir todos los aminoácidos— resultó ser correcta.
Hay 1616 grupos únicos de nucleótidos si se usa un códgio de dobletes, y 6464 grupos únicos si se usa un código de tripletes. ¿Por qué es así? Examinemos más detalladamene las matemáticas detras de estas afirmaciones.

Código de dobletes

Veamos primero el código de dobletes. En un código de dobletes, un grupo ordenado de dos nucleótidos codifica un aminoácido. ¿Cuántos de estos grupos de dos nucleótidos podemos hacer? Sabemos que hay 44 diferentes posibilidades para cada uno de los 22 nucleótidos en el doblete (A,T, C y G, si utilizamos las bases de ADN).
Si ponemos una A en la primera posición, entonces cualquier de los cuatro nucleotidos puede ocupar la segunda posición, lo que resulta en cuatro combinaciones (AA, AT, AG, AC) que comienzan con una A. Podemos repetir esto para T (TT, TA, TC, TG), C (CC, CT, CA, CG), y para G (GG, GC, GT, GA). Si contamos todas estas posibilidades, encontraremos que en total hay 1616.
Puede que sea más fácil usar un atajo matemático para responder rápidamente este tipo de pregunta. Puesto que sabemos que hay 4 posibles nucleótidos para cada posición en el doblete y dado que importa el orden de las dos posiciones, podemos usar las reglas de la permutación para calcular el número de posibles grupos de la siguiente forma:
(44 posibilidades para la primera posición) \cdot (44 posibilidades para la segunda posición) ==
44=164 \cdot4 = 16 grupos ordenados posibles

Código de tripletes

¿Qué hay del código de tripletes? En este caso, podemos usar el mismo razonamiento matemático, pero debemos agregar una posición adicional a nuestro planteamiento. Ahora hay 33 posiciones que llenar, y cada una de ellas puede ser ocupada por cualquiera de las cuatro bases (A, T, G, o C). Dado que hay 44 posibles opciones para cada posición, podemos multiplicar de la siguiente manera:
(44 posibilidades para la primera posición) \cdot (44 possibilidades para la segunda posición) \cdot (44 possibilidades para la tercera posición) ==
444=644 \cdot 4 \cdot 4 =64 grupos ordenados posibles

La correspondencia entre codones y aminoácidos

La hipótesis de tripletes de Gamow parecía lógica y se aceptó ampliamente. Sin embargo, no se había probado experimentalmente y los investigadores seguían sin saber cuales eran los tripletes de nucleótidos correspondientes a cada aminoácido.
En 1961 se comenzó a descifrar el código genético con el trabajo del bioquímico estadounidense Marshall Nirenberg. Por primera vez, Nirenberg y sus colegas fueron capaces de identificar los tripletes específicos de nucleótidos que correspondían a aminoácidos en particular. Su éxito se debió a dos innovaciones experimentales:
  • Una manera de generar moléculas de ARNm artificial con secuencias específicas y conocidas.
  • Un sistema para traducir ARNm en polipéptidos fuera de la célula (un sistema "libre de células"). El sistema de Nirenberg estaba compuesto de citoplasma de células lisadas de E. coli, las cuales contienen todos los materiales necesarios para la traducción.
Primero, Nirenberg sintetizó una molécula de ARNm compuesta únicamente del nucleótido uracilo (llamada poli-U). Al añadir ARNm de poli-U al sistema libre de células, encontró que los polipéptidos generados estaban compuestos exclusivamente del aminoácido fenilalanina. Puesto que en el ARNm de poli-U solo hay tripletes UUU, Nirenberg concluyó que UUU debía codificar para fenilalanina2^2. Usando la misma técnica, demostró que el ARNm de poli-C se traducía en polipéptidos compuestos exclusivamente del aminoácido prolina, lo que sugería que el triplete CCC podría codificar para prolina2^2.
Secuencia de ARNm: 5'-...UUUUUUUUUUUU...-3' (ARNm de poli-U)
UUU \rightarrow fenilalanina (Phe)
Secuencia polipeptídica: (N terminal)...Phe-Phe-Phe-Phe...(C terminal)
Otros investigadores, como el bioquímico Har Gobind Khorana en la Universidad de Wisconsin, ampliaron el experimento de Nirenberg al sintetizar ARNm artificiales con secuencias más complejas. Por ejemplo, en un experimento Khorana generó un ARNm poli-UC (UCUCUCUCUC…) y lo agregó a un sistema libre de células similar al de Nirenberg3,4^{3,4}.
El ARNm poli-UC se tradujo en polipéptidos con un patrón que alterna los aminoácidos serina y leucina. Estos y otros resultados confirmaron que el código genético se basa en tripletes o codones. Hoy sabemos que la serina está codificada por el codón UCU, mientras que la leucina está codificada por CUC.
Secuencia de ARNm: 5'-...UCUCUCUCUCUC...-3' (ARNm de poli-UC)
UCU \rightarrow serina (Ser)
CUC \rightarrow leucina (Leu)
Secuencia polipeptídica: (N terminal)...Ser-Leu-Ser-Leu...(C terminal)
En 1965, con ayuda del sistema libre de células y otras técnicas, Nirenberg, Khorana y sus colegas ya habían descifrado completamente el código genético. Esto es, ya habían identificado el aminoácido o señal de "alto" correspondiente a cada uno de los 6464 codones de nucleótidos. Por sus contribuciones, Nirenberg y Khorana (junto con otro investigador del código genético, Robert Holley) recibieron el premio Nobel en 1968.
Fotografías de Nirenberg y Khorana
_Izquierda: imagen modificada de "Marshall Nirenberg y Heinrich Matthaei," de N. MacVicar (dominio público). Derecha: "Har Gobind Khorana" (dominio público)._
Siempre me gusta imaginar lo fabuloso que hubiera sido ser una de las personas que descubrió el código molecular básico de la vida. Aunque ahora ya conocemos el código, hay muchos otros misterios biológicos que esperan ser resueltos (¡tal vez por ti!).

Créditos:

Este artículo es un derivado modificado de "The genetic code," por OpenStax College, Biology, CC BY 4.0. Descarga el artículo original sin costo en http://cnx.org/contents/185cbf87-c72e-48f5-b51e-f14f21b5eabd@10.59.
El artículo modificado está autorizado bajo una licencia CC BY-NC-SA 4.0.

Referencias citadas:

  1. Lorch, M. (16 de agosto de 2012). The most beautiful wrong ideas in science (Las ideas erróneas más hermosas en la ciencia). En Chemistry blog. Consultado en http://www.chemistry-blog.com/2012/08/16/the-most-beautiful-wrong-ideas-in-science/.
  2. Nirenberg, M. (2004). Historical review: Deciphering the genetic code – a personal account (Revisión histórica: descifrando el código genético, un relato personal). TRENDS in Biochemical Sciences, 29(1), 46-54. http://dx.doi.org/10.1016/j.tibs.2003.11.009.
  3. Gellene, Denise. (14 de noviembre de 2011). H. Gobind Khorana, 89, Nobel-winning scientist, dies (H. Gobind Khorana, científico ganador del Premio Nobel, muere a los 89 años de edad). The Nueva York Times. Consultado en http://www.nytimes.com/2011/11/14/us/h-gobind-khorana-1968-nobel-winner-for-rna-research-dies.html?_r=0.
  4. Nobel Media. (2014). Crack the code - how the code was cracked (Descifra el código: cómo se descifró el código). En Nobelprize.org. Consultado en https://www.nobelprize.org/educational/medicine/gene-code/history.html.

Referencias:

Arnaud, M.B., Inglis, D.O., Skrzypek, M.S., Binkley, J., Shah, P., Wymore, F., Binkley, G., Miyasato, S.R., Simison, M. y Sherlock, G. (2013). CGD help: Non-standard genetic codes (Temas de ayuda en CGD: códigos genéticos inusuales). En Candida genome database. Consultado en http://www.candidagenome.org/help/code_tables.shtml.
Codon. (2014). En Scitable. Consultado en http://www.nature.com/scitable/definition/codon-155.
Gellene, Denise. (14 de noviembre de 2011). H. Gobind Khorana, 89, Nobel-winning scientist, dies (H. Gobind Khorana, científico ganador del Premio Nobel, muere a los 89 años de edad). The Nueva York Times. Consultado en http://www.nytimes.com/2011/11/14/us/h-gobind-khorana-1968-nobel-winner-for-rna-research-dies.html?_r=0.
Guevara Vasquez, F. (2013). Cracking the genetic code (Descifrando el código genético). En ACCESS - cryptography 2013. Consultado en http://www.math.utah.edu/~fguevara/ACCESS2013/Cracking_the_Code.pdf.
Nirenberg/Khorana: Breaking the genetic code. (Nirenberg/Khorana: descifrando el código genético; s.f.). Consultado en http://www.mhhe.com/biosci/genbio/raven6b/graphics/raven06b/howscientiststhink/14-lab.pdf.
Nirenberg, M. (2004). Historical review: Deciphering the genetic code – a personal account (Revisión histórica: Descifrando el código genético, un relato personal). TRENDS in Biochemical Sciences, 29(1), 46-54. http://dx.doi.org/10.1016/j.tibs.2003.11.009 0.
Nirenberg, M. y Leder, P. (1964). RNA codewords and protein synthesis (El código de ARN y la síntesis de proteínas). Science, 145(3639), 1399-1407. http://dx.doi.org/10.1126/science.145.3639.1399.
Nirenberg, M. W. y Matthaei, J. H. (1961). The dependence of cell-free protein synthesis in E. coli upon naturally occurring or synthetic polyribonucleotides (La síntesis de proteínas libre de células con E. coli depende de polirribonucleótidos naturales o sintéticos). PNAS, 47(10), 1588-1602. http://dx.doi.org/10.1073/pnas.47.10.1588.
Office of NIH History. (s.f.). The poly-U experiment (El experimento de poli-U). En Deciphering the genetic code: Marshall Nirenberg. Consultado en https://history.nih.gov/exhibits/nirenberg/HS4_polyU.htm.
Openstax College, Biology. (29 de septimbre, 2015). The genetic code (El código genético). En OpenStax CNX. Consultado en http://cnx.org/contents/GFy_h8cu@9.87:QEibhJMi@8/The-Genetic-Code.
Purves, W. K., Sadava, D. E., Orians, G. H. y Heller, H.C. (2004). The genetic code (El código genético). En Life: The science of biology (7° ed., págs. 239-241). Sunderland, MA: Sinauer Associates.
Raven, P. H., Johnson, G. B., Mason, K. A., Losos, J. B. y Singer, S. R. (2014). The genetic code (El código genético). En Biology (10° ed., AP ed., pp. 282-284). Nueva York, NY: McGraw-Hill.
Reece, J. B., Urry, L. A., Cain, M. L., Wasserman, S. A., Minorsky, P. V. y Jackson, R. B. (2011). The genetic code (El código genético). En Campbell biology (10° ed., págs. 337-340). San Francisco, CA: Pearson.
Söll, D., Ohtsuka, E., Jones, D. S., Lohrmann, R., Hayatsu, H., Nishimura, S. y Khorana, H. G. (1965). Studies on polynucleotides, XLIX. Stimulation of the binding of aminoacyl-sRNA's to ribosomes by ribotrinucleotides and a survey of codon assignments for 20 amino acids (Estudio sobre polinucleótidos XLIX. Estimulación de la unión entre aminoacil-ARN y ribosomas por ribotrinucleótidos, y un estudio sobre la asignación de codones de 20 aminoácidos). PNAS, 54(5), 1378-1385. Consultado en http://www.ncbi.nlm.nih.gov/pmc/articles/PMC219908/.
Cargando