If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Sesgo en traducción de lenguajes

La complejidad del lenguaje humano siempre ha planteado problemas desafiantes a los científicos de computación interesados en el reconocimiento de habla, la comprension textual, la traducción y la generación de lenguaje natural.
Considera el problema de la traducción: hay casi 200 países en el mundo y miles de idiomas hablados por sus ciudadanos. Ahora que vivimos en una economía global, nos encantaría que las computadoras pudieran al menos traducir entre los 5 idiomas más hablados.

Antes del aprendizaje automático

La búsqueda de algoritmos de traducción comenzó en los años 60 con la traducción automática basada en reglas (RBMT, en inglés). Los algoritmos RBMT se basan en una gramática que describe la estructura de cada idioma más un diccionario de palabras. Para traducir una frase, intentan analizarla basándose en la gramática de ese idioma, convierten esa estructura gramatical al idioma de destino, y traducen las palabras usando el diccionario.
Diagrama de dos árboles de análisis gramatical para la misma frase en inglés y francés. El árbol de inglés comienza con un nodo etiquetado como "NP" ("Frase sustantiva"), que tiene tres nodos hijos etiquetados como "DET" ("Determinante"), "ADJ" ("Adjetivo"), y "N" ("Sustantivo"). El nodo "DET" termina en la palabra "the", el nodo "ADJ" termina en la palabra "red", y el nodo "N" termina en la palabra "house". El árbol de francés también comienza con un nodo etiquetado "NP" que tiene tres nodos hijos. El primer nodo es "DET", el segundo nodo es "N", y el tercer nodo es "ADJ". "DET" termina en la palabra "la", "N" termina en "maison", y "ADJ" termina en "rouge".
Traducción de una frase corta del inglés al francés con RBMT.
Los algoritmos RBMT requieren el trabajo de lingüistas expertos en la elaboración de la gramática, pero sus traducciones todavía fallan en capturar la complejidad del lenguaje humano. Los investigadores buscaron mejores opciones.
En la década de 1990, las computadoras de repente tuvieron acceso a muchos más datos de lenguaje natural. Había millones de documentos textuales digitalizados, como libros y artículos de noticias, y muchos de ellos habían sido traducidos a múltiples idiomas.
La serie Harry Potter ha sido traducida a más de 70 idiomas, así que las computadoras pueden inferir la traducción de "owl" simplemente comparando todas esas traducciones.
InglésPortugués
We await your owl by no later than July 31.Queira enviar-nos a sua coruja até dia 31 de Julho, sem falta.
"What does it mean, they want my owl?""O que é que quer dizer espararam a minha coruja?"
Todos estos nuevos datos habilitaron el enfoque de Traducción Estadística Automática (SMT, en inglés). Los algoritmos de SMT descomponen una frase en segmentos más pequeños, buscan traducciones existentes para esos segmentos, y proponen la traducción más probable de la frase completa.
Diagrama de una frase traducida estadísticamente. La frase en español "Quiero ver la película" se muestra en la parte superior. Debajo de "Quiero" hay tres frases en inglés "I want", "I love ", y "I like". Debajo de "ver" hay tres infinitivos en inglés "to see", "to watch", y "to meet". Debajo de "la película" se encuentran tres frases en inglés "the film", "the movie", y "the motion picture". Una línea va de "I want" a "to watch" a "the movie".
Traducción de una frase corta del español al inglés con SMT.
Con un conjunto pequeño de datos de entrenamiento, los algoritmos SMT producen peores resultados que los algoritmos RBMT. Sin embargo, con "big data", los algoritmos SMT pueden producir frases bastante fluidas, o al menos frases fluidas dentro de oraciones.

El enfoque de aprendizaje automático

En años recientes, el nuevo algoritmo en el vecindario es Traducción Neuronal Automática (NMT, en inglés). NMT es un algoritmo de aprendizaje automático que usa redes neuronales sobre cantidades enormes de datos. Cuando se entrenan bien y con suficientes datos, esos algoritmos pueden aprender como producir frases fluidas de principio a fin.
Diagrama de una red neuronal, con círculos que representan cada neurona y líneas que representan conexiones entre neuronas. La red comienza a la izquierda con una columna de 3 neuronas etiquetadas con palabras de una frase en inglés: "Let's", "go" y "dancing". Esas neuronas están conectadas a otra columna de 4 neuronas, que se conecta a otra columna de 4, y esas neuronas están etiquetadas como "Capas ocultas". La segunda capa oculta de neuronas está conectada a una columna de 3 neuronas etiquetadas con palabras en español;: "Vamos", "a", "bailar".

Traducciones sesgadas

Dado que el NMT está entrenado con ejemplos provenientes de un mundo sesgado, puede reflejar esos sesgos en sus traducciones. Cuando Google Translate comenzó a usar NMT, la gente notó un sesgo al traducir de idiomas sin género a idiomas con género. 1
Por ejemplo, aqui está cómo tradujo cuatro frases del Turco con género neutro:
Captura de pantalla de Google Translate UI traduciendo cuatro frases del turco al inglés. Las frases en inglés son "She is a cook", "He is an engineer", "He is a doctor" y "She is a nurse".
El algoritmo de traducción simplemente estaba regurgitando el pronombre que más frecuentemente se asocia a esa profesión, sin darse cuenta que había aprendido una visión sexista del mundo.
Los ingenieros de Google cambiaron la interfaz para que siempre muestre traducciones con pronombres tanto femeninos como masculinos.
Captura de pantalla de Google Translate UI traduciendo "o bir doktor" del Turco al Inglés. Las traducciones al inglés muestran tanto "She is a doctor" como "He is a doctor".
Gracias al aprendizaje automático, ahora podemos traducir muchas más frases complejas que nunca antes. pero también tenemos que recordar que los datos de entrenamiento contienen todos los sesgos de nuestro presente y nuestro pasado. Los desarrolladores de sistemas de traducción pueden buscar formas de combatir el sesgo algorítmico, mientras que los usuarios de esos sistemas deberían mirar los resultados con un ojo crítico.

🙋🏽🙋🏻‍♀️🙋🏿‍♂️¿TIenes alguna pregunta sobre este tema? ¡Nos encantaría responderte; tan solo pregunta en el área de preguntas más abajo!

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.