Alrededor de 10 millones de personas hablan quechua, pero intentar traducir automáticamente los correos electrónicos y los mensajes de texto a la familia de lenguas indígenas más hablada en América fue durante mucho tiempo casi imposible.
Eso cambió el miércoles, cuando Google añadió el quechua y una variedad de otros idiomas a su servicio de traducción digital.
El gigante de Internet afirma que la nueva tecnología de inteligencia artificial le permite ampliar enormemente el repertorio de idiomas del mundo de Google Translate. Esta semana ha añadido 24, entre ellos el quechua y otras lenguas indígenas sudamericanas como el guaraní y el aymara. También ha añadido una serie de lenguas africanas y sudasiáticas muy habladas que llevan mucho tiempo sin aparecer en los productos tecnológicos más populares.
“Nos fijamos en las lenguas con poblaciones muy grandes y desatendidas”, dijo a la prensa Isaac Caswell, investigador de Google.
La noticia de la exhibición anual de tecnología I/O de la compañía californiana puede ser celebrada en muchos rincones del mundo. Pero también es probable que suscite las críticas de quienes se sienten frustrados por productos tecnológicos anteriores que no entendían los matices de su idioma o cultura.
El quechua era la lengua franca del Imperio Inca, que se extendía desde el actual sur de Colombia hasta el centro de Chile. Su estatus comenzó a declinar tras la conquista española de Perú hace más de 400 años.
Su incorporación a las lenguas reconocidas por Google es una gran victoria para los activistas de la lengua quechua, como Luis Illaccanqui, un peruano que creó el sitio web Qichwa 2.0, que incluye diccionarios y recursos para el aprendizaje del idioma.
“Ayudará a poner el quechua y el español al mismo nivel”, dijo Illaccanqui, que no participó en el proyecto de Google.
Illaccanqui, cuyo apellido en quechua significa “eres el rayo”, dijo que el traductor también ayudará a mantener viva la lengua con una nueva generación de jóvenes y adolescentes, “que hablan quechua y español al mismo tiempo y están fascinados por las redes sociales.”
Caswell calificó la noticia como un “paso tecnológico muy grande”, ya que hasta hace poco no era posible añadir idiomas si los investigadores no podían encontrar un conjunto de textos en línea lo suficientemente grande -como libros digitales, periódicos o publicaciones en redes sociales- para que sus sistemas de IA aprendieran de ellos.
Los gigantes tecnológicos estadounidenses no tienen un gran historial a la hora de hacer que su tecnología lingüística funcione bien fuera de los mercados más ricos, un problema que también les ha dificultado la detección de información errónea peligrosa en sus plataformas. Hasta esta semana, Google Translate se ofrecía en idiomas europeos como el frisón, el maltés, el islandés y el corso -cada uno con menos de un millón de hablantes-, pero no en idiomas de África oriental como el oromo y el tigriña, que tienen millones de hablantes.
Las nuevas lenguas se pondrán en marcha esta semana. El asistente de voz de Google todavía no los entiende, lo que los limita a traducciones de texto a texto por ahora. Google dijo que está trabajando en añadir el reconocimiento de voz y otras capacidades, como poder traducir un signo apuntando una cámara hacia él.
Eso será importante para las lenguas mayoritariamente habladas como el quechua, especialmente en el campo de la salud, porque muchos médicos y enfermeras peruanos que sólo hablan español trabajan en zonas rurales y “no pueden entender a los pacientes que hablan principalmente quechua”, dijo Illaccanqui.
“La próxima frontera, o desafío, es trabajar en el habla”, dijo Arturo Oncevay, un investigador peruano de traducción automática de la Universidad de Edimburgo que cofundó un grupo de investigación para mejorar la tecnología de las lenguas indígenas en toda América. “Las lenguas nativas de América son tradicionalmente orales”.
En su anuncio, Google advirtió que la calidad de las traducciones en los idiomas recién añadidos “todavía está muy por detrás” de otros idiomas que soporta, como el inglés, el español y el alemán, y señaló que los modelos “cometerán errores y mostrarán sus propios sesgos.” Sin embargo, la empresa sólo añade idiomas si sus sistemas de IA alcanzan un determinado umbral de competencia, dijo Caswell.
“Si hay un número significativo de casos en los que está muy equivocado, entonces no lo incluiríamos”, dijo. “Incluso si el 90% de las traducciones son perfectas, pero el 10% son un disparate, eso es demasiado para nosotros”.
Google dijo que sus productos ahora soportan 133 idiomas. Los últimos 24 son el mayor lote que se ha añadido desde que Google incorporó 16 nuevos idiomas en 2010. Lo que ha hecho posible la expansión es lo que Google llama un modelo de traducción automática de “disparo cero” o “recursos cero”, que aprende a traducir a otro idioma sin ver nunca unejemplo de ello.
Meta, la empresa matriz de Facebook e Instagram, presentó el año pasado un concepto similar llamado Traductor Universal de Voz.
“A alto nivel, la forma en que se puede imaginar que funciona es que tienes un único modelo neuronal gigantesco y está entrenado en 100 idiomas diferentes”, dijo Caswell sobre el modelo de Google.
Dijo que el nuevo grupo abarca desde lenguas más pequeñas como el mizo, hablado en el noreste de la India por unas 800.000 personas, hasta lenguas más extendidas como el lingala, hablado por unos 45 millones de personas en toda África Central.
Hace más de 15 años, en 2006, Microsoft obtuvo cierta atención positiva en Sudamérica con una función de software que traducía al quechua los menús y comandos conocidos de Microsoft. Pero eso fue antes de la actual ola de avances de la IA en la traducción en tiempo real.
Américo Mendoza-Mori, académico de idiomas de la Universidad de Harvard, que habla quechua, dijo que la atención de Google aporta una necesaria visibilidad a la lengua en lugares como Perú, donde los quechuahablantes siguen sin estar presentes en muchos servicios públicos. La supervivencia de muchas de estas lenguas “dependerá de su uso en contextos digitales”, dijo.
Las nuevas lenguas añadidas son: Asamés, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guaraní, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sánscrito, Sepedi, Kurdo Sorani, Tigrinya, Tsonga y Twi.
—
O’Brien informó desde Providence, Rhode Island.
Comments