Contenido principal
Principios de ciencias de la computación avanzados (AP Computer Science Principles)
Curso: Principios de ciencias de la computación avanzados (AP Computer Science Principles) > Unidad 5
Lección 3: Sesgo en el aprendizaje automáticoSesgo en traducción de lenguajes
La complejidad del lenguaje humano siempre ha planteado problemas desafiantes a los científicos de computación interesados en el reconocimiento de habla, la comprension textual, la traducción y la generación de lenguaje natural.
Considera el problema de la traducción: hay casi 200 países en el mundo y miles de idiomas hablados por sus ciudadanos. Ahora que vivimos en una economía global, nos encantaría que las computadoras pudieran al menos traducir entre los 5 idiomas más hablados.
Antes del aprendizaje automático
La búsqueda de algoritmos de traducción comenzó en los años 60 con la traducción automática basada en reglas (RBMT, en inglés). Los algoritmos RBMT se basan en una gramática que describe la estructura de cada idioma más un diccionario de palabras. Para traducir una frase, intentan analizarla basándose en la gramática de ese idioma, convierten esa estructura gramatical al idioma de destino, y traducen las palabras usando el diccionario.
Los algoritmos RBMT requieren el trabajo de lingüistas expertos en la elaboración de la gramática, pero sus traducciones todavía fallan en capturar la complejidad del lenguaje humano. Los investigadores buscaron mejores opciones.
En la década de 1990, las computadoras de repente tuvieron acceso a muchos más datos de lenguaje natural. Había millones de documentos textuales digitalizados, como libros y artículos de noticias, y muchos de ellos habían sido traducidos a múltiples idiomas.
La serie Harry Potter ha sido traducida a más de 70 idiomas, así que las computadoras pueden inferir la traducción de "owl" simplemente comparando todas esas traducciones.
Inglés | Portugués |
---|---|
We await your owl by no later than July 31. | Queira enviar-nos a sua coruja até dia 31 de Julho, sem falta. |
"What does it mean, they want my owl?" | "O que é que quer dizer espararam a minha coruja?" |
Todos estos nuevos datos habilitaron el enfoque de Traducción Estadística Automática (SMT, en inglés). Los algoritmos de SMT descomponen una frase en segmentos más pequeños, buscan traducciones existentes para esos segmentos, y proponen la traducción más probable de la frase completa.
Con un conjunto pequeño de datos de entrenamiento, los algoritmos SMT producen peores resultados que los algoritmos RBMT. Sin embargo, con "big data", los algoritmos SMT pueden producir frases bastante fluidas, o al menos frases fluidas dentro de oraciones.
El enfoque de aprendizaje automático
En años recientes, el nuevo algoritmo en el vecindario es Traducción Neuronal Automática (NMT, en inglés). NMT es un algoritmo de aprendizaje automático que usa redes neuronales sobre cantidades enormes de datos. Cuando se entrenan bien y con suficientes datos, esos algoritmos pueden aprender como producir frases fluidas de principio a fin.
Traducciones sesgadas
Dado que el NMT está entrenado con ejemplos provenientes de un mundo sesgado, puede reflejar esos sesgos en sus traducciones. Cuando Google Translate comenzó a usar NMT, la gente notó un sesgo al traducir de idiomas sin género a idiomas con género. start superscript, 1, end superscript
Por ejemplo, aqui está cómo tradujo cuatro frases del Turco con género neutro:
El algoritmo de traducción simplemente estaba regurgitando el pronombre que más frecuentemente se asocia a esa profesión, sin darse cuenta que había aprendido una visión sexista del mundo.
Los ingenieros de Google cambiaron la interfaz para que siempre muestre traducciones con pronombres tanto femeninos como masculinos.
Gracias al aprendizaje automático, ahora podemos traducir muchas más frases complejas que nunca antes. pero también tenemos que recordar que los datos de entrenamiento contienen todos los sesgos de nuestro presente y nuestro pasado. Los desarrolladores de sistemas de traducción pueden buscar formas de combatir el sesgo algorítmico, mientras que los usuarios de esos sistemas deberían mirar los resultados con un ojo crítico.
🙋🏽🙋🏻♀️🙋🏿♂️¿TIenes alguna pregunta sobre este tema? ¡Nos encantaría responderte; tan solo pregunta en el área de preguntas más abajo!
¿Quieres unirte a la conversación?
Sin publicaciones aún.