Contribución de The African Languages Lab

Las lenguas africanas representan casi un tercio de todas las lenguas del mundo. Sin embargo, de los más de 2.000 idiomas que se hablan en todo el continente, solo 49 están disponibles en plataformas de traducción como Google Translate. Peor aún, un sorprendente 88% de las lenguas africanas están "gravemente infrarrepresentadas" o "completamente ignoradas" en la lingüística computacional (Joshi et al., 2020).

La Inteligencia Artificial (IA) ofrece la oportunidad de proteger las lenguas infrarrepresentadas, pero la orientación y las salvaguardias son fundamentales. Sin ellos, los grandes modelos lingüísticos (LLM, por sus siglas en inglés) corren el riesgo de reforzar los lenguajes institucionales y acelerar el declive de otros. Las consecuencias son nefastas: el 40% de las lenguas del mundo están en peligro de extinción, cientos de las cuales se hablan en África. (UNESCO, 2022).

El Laboratorio de Lenguas Africanas (All Lab) es una colaboración liderada por jóvenes comprometida con la preservación de las lenguas africanas mediante la documentación, digitalización, traducción y empoderamiento de las lenguas africanas a través de sistemas avanzados de IA y procesamiento del lenguaje natural (PNL). Junto con socios como Smartling, estamos logrando avances sustanciales para abordar la brecha digital de las lenguas africanas. A continuación, te explicamos cómo hacerlo.

 

La necesidad de documentación lingüística en África

La diversidad lingüística es uno de los mayores activos del continente africano, pero también presenta desafíos monumentales. Muchos, especialmente las comunidades más pequeñas, hablan idiomas únicos que no están bien documentados. Estos lenguajes de "bajos recursos" carecen de los conjuntos de datos necesarios para el uso computacional, lo que dificulta, si no impide, la traducción automática (TA), el procesamiento de voz, la transcripción automática y otras aplicaciones de PLN.

El desafío es generalizado: menos del 5% de las lenguas africanas cuentan con recursos digitales significativos. (Asociación de Lingüística Computacional, 2019) Está claro que necesitamos documentar mejor estos idiomas, pero el proceso no es una tarea fácil. Estadísticas del laboratorio de lenguas africanas

 

El reto de documentar las lenguas africanas de bajos recursos (Issaka et al., 2024)

  • Escasez de datos: Históricamente, la mayoría de las culturas africanas han puesto un fuerte énfasis en las tradiciones orales. Como resultado, muchos existen principalmente en formas orales, y la documentación escrita suele ser escasa o inexistente. Sin lenguaje escrito, el ensamblaje de datos de corpus (una colección de lenguaje escrito y hablado necesario para entrenar modelos de aprendizaje automático) se vuelve complicado.
  • Políticas gubernamentales y financiación limitada de la investigación: La mayoría de los gobiernos africanos han dado prioridad a las lenguas oficiales como el inglés y el francés, a menudo vestigios del dominio colonial, al tiempo que han proporcionado poco apoyo institucional para documentar, preservar y desarrollar las lenguas indígenas. La insuficiente financiación académica debido al escaso interés también restringe la investigación y el desarrollo de las tecnologías de las lenguas indígenas.
  • Educación de la primera infancia: Algunos países africanos se proponen preservar las lenguas indígenas en la educación, pero los esfuerzos a menudo son insuficientes. Por ejemplo, en Ghana, una política exige que se imparta instrucción en la primera lengua de un niño desde el jardín de infantes hasta el tercer grado antes de pasar al inglés. Sin embargo, restringe la instrucción a 11 idiomas patrocinados por el gobierno, lo que resulta en aún menos recursos, atención y hablantes para los idiomas restantes. Incluso con estas políticas, los educadores con frecuencia confían en el inglés como su principal medio de instrucción debido a los recursos y la capacitación limitados.
  • Falta de ortografías estandarizadas: La recopilación de datos sobre muchas lenguas africanas de bajos recursos, como el hausa y el fulani, es muy difícil debido a su amplia distribución geográfica y a sus importantes variaciones dialectales. Por lo tanto, la creación de recursos digitales unificados para estos idiomas requiere una coordinación y estandarización cuidadosas e importantes.
  • Barreras en la recopilación de datos: En algunas regiones, el conflicto activo o la marginación de ciertos grupos lingüísticos afectan negativamente la recopilación de datos y las iniciativas de desarrollo lingüístico. Además, muchos hablantes de lenguas de bajos recursos viven en comunidades rurales o remotas con acceso limitado a Internet y a tecnologías digitales, lo que dificulta aún más la recopilación de datos lingüísticos.

 

Innovar para la equidad lingüística

En el Laboratorio de Lenguas Africanas, utilizamos sistemas de IA y PNL para digitalizar, traducir y preservar las lenguas africanas con el fin de crear resultados positivos para las personas de todo el continente. Nuestro enfoque de cuatro pilares actualmente apoya 40 idiomas, desde el bantú hablado hasta el khoisan menos conocido, que representan diversas culturas, regiones y familias lingüísticas en todo el continente.

 

Cómo el Laboratorio de Lenguas Africanas apoya a las lenguas con escasos recursos

  1. Recopilación, extracción, limpieza y almacenamiento de datos: Recopilamos datos lingüísticos de diversas fuentes, los seleccionamos y estandarizamos eliminando inconsistencias y los almacenamos de forma segura para su uso en modelos de IA.
  2. Investigación y desarrollo de modelos: Llevamos a cabo investigaciones para construir modelos de IA que mejoren la comprensión y la aplicación de las lenguas africanas.
  3. Participación comunitaria y crowdsourcing: Colaboramos con instituciones, comunidades y hablantes nativos para recopilar y traducir datos, garantizando una representación auténtica y una sostenibilidad a largo plazo a través de nuestras tecnologías innovadoras impulsadas por IA.
  4. Despliegue de tecnología: En asociación con líderes de la industria e instituciones académicas, utilizamos sistemas de IA y PNL para traducir nuestros datos en resultados de lenguaje utilizables que impulsan plataformas como nuestra aplicación All Voices y un chatbot multilingüe, que está integrado en la aplicación móvil Base.

Los países que integran las lenguas locales en la educación y los contenidos digitales tienden a tener tasas de alfabetización más altas y una mayor retención cultural.

La tecnología que hace posible nuestro trabajo

La ejecución de nuestros cuatro pilares requiere la tecnología adecuada y socios colaborativos. Como tal, hemos formado una asociación estratégica con Smartling, líder en tecnología de traducción y localización. Esta asociación nos permite aprovechar las herramientas de vanguardia de Smartling para la traducción, la gestión y la precisión contextual de idiomas, transformando la forma en que los idiomas de bajos recursos se documentan y comparten digitalmente.

Así es como la tecnología está impulsando nuestro progreso en la digitalización y traducción de lenguas africanas.

 

Compilación de datos existentes: Agregación de corpus

En el caso de muchas lenguas africanas, faltan datos lingüísticos centralizados. Recopilamos y estandarizamos datos de diversas fuentes, aprovechando scripts de Python para limpiar, estandarizar y convertir los datos en un formato común con el objetivo de crear un corpus centralizado para un uso amplio. La consolidación y el perfeccionamiento de los datos lingüísticos garantizan la coherencia y la accesibilidad, lo que, en última instancia, permite a las comunidades crear recursos educativos, herramientas de traducción y contenidos digitales.

El Laboratorio de Lenguas Africanas ha reunido más de 400 GB de datos de voz y texto de 40 lenguas africanas de bajos recursos, avanzando en su documentación y disponibilidad digital.

Reimaginando el crowdsourcing: todas las voces

Como se mencionó anteriormente, los datos incompletos constituyen un vacío crítico para la preservación de la lengua y puede ser difícil de llenar en algunas comunidades africanas. Nuestra innovadora aplicación de recopilación de datos, All Voices, permite a las instituciones, comunidades y hablantes nativos documentar y digitalizar su idioma local. Los colaboradores pueden grabar el habla de 40 idiomas africanos, apoyando nuestra necesidad colectiva de capturar datos para idiomas con escasos recursos.

En el futuro, Todas las Voces cerrará las brechas de comunicación en las comunidades y hará que los idiomas locales sean accesibles para todos. También traducirá entre idiomas africanos y lenguas populares como el inglés y el francés. Con una traducción fluida y precisa en una amplia variedad de idiomas, All Voices tiene como objetivo fomentar un intercambio cultural más profundo, al tiempo que contribuye a un conjunto de datos lingüísticos de bajos recursos.

 

Gestión de datos: del almacenamiento a la traducción

La agregación y organización de datos lingüísticos, además de la disponibilidad de la comunidad, son fundamentales para nuestro trabajo en The All Lab. Smartling juega un papel vital en todo nuestro proceso de gestión de datos, desde la recopilación de datos hasta el almacenamiento y la traducción. Con Smartling, podemos cargar, organizar y almacenar datos de múltiples proyectos en un sistema centralizado y seguro.

La API de Smartling nos permite no solo compartir nuestros datos ampliamente en múltiples plataformas, sino también realizar actualizaciones en tiempo real, lo que garantiza que cada miembro de nuestra comunidad tenga acceso al corpus digital más preciso y completo.

Hemos confiado en la memoria de traducción de Smartling, en las traducciones impulsadas por IA y en los traductores cualificados para respaldar un contenido coherente y preciso en diferentes idiomas africanos. El repositorio lingüístico estructurado y accesible resultante es esencial para ampliar la accesibilidad digital y los esfuerzos de preservación en toda la diversidad lingüística de África.

 

Hacer un buen uso de nuestros datos

Nuestro trabajo en el All Lab, respaldado por las tecnologías mencionadas, genera conjuntos de datos lingüísticos africanos estructurados, que desempeñan un papel fundamental en la digitalización de lenguas de bajos recursos. Estos conjuntos de datos son fundamentales para el desarrollo de nuevas herramientas de traducción automática, reconocimiento de voz y preservación del lenguaje. En última instancia, nuestros datos ayudan a avanzar en la investigación lingüística africana y respaldan el desarrollo de modelos lingüísticos más precisos y culturalmente relevantes.

También ponemos a disposición nuestros conjuntos de datos a través de plataformas de acceso abierto como Huggingface. Nuestro trabajo fomenta el desarrollo de la IA basado en la comunidad y fomenta una mayor inversión en tecnologías lingüísticas africanas.

 

Avanzando a grandes zancadas y mirando hacia el futuro

En el Laboratorio de Lenguas Africanas, hemos logrado avances sustanciales para abordar la brecha digital de las lenguas africanas a través de la recopilación de datos, la agregación, la estandarización, el crowdsourcing y el desarrollo y la implementación de modelos. Estamos orgullosos de nuestro creciente y sólido corpus de datos lingüísticos (que tiene un tamaño aproximado de medio terabyte), de las herramientas de traducción avanzadas y de la exitosa expansión del acceso a los recursos lingüísticos.

Hasta la fecha, hemos recopilado más de 400 GB de conjuntos de datos de voz y texto de 40 idiomas africanos de bajos recursos, lo que respalda su documentación y el avance tecnológico. A través de asociaciones con instituciones académicas como UCLA MARS Lab y líderes de la industria como Smartling, estamos aprovechando la investigación y la tecnología de vanguardia para impulsar nuestra misión. También estamos creando conciencia activamente sobre el panorama lingüístico africano a través de seminarios, conferencias y artículos técnicos.

De cara al futuro, trabajaremos para preservar más lenguas africanas de bajos recursos, más allá de las 40 actuales. También pretendemos ampliar la disponibilidad de nuestros conjuntos de datos y herramientas. Además, nos comprometemos a impulsar una mayor innovación en la traducción automática, la preservación del idioma y la investigación lingüística impulsada por la IA en toda África. Juntos, nos aseguraremos de que el patrimonio lingüístico de África no solo sobreviva, sino que prospere en la era digital.

¿Por qué esperar para traducir de manera más inteligente?

Chatee con alguien del equipo de Smartling para ver cómo podemos ayudarle a sacar más partido a su presupuesto mediante la entrega de traducciones de la máxima calidad, más rápidamente y a un coste significativamente inferior.
Cta-Card-Side-Image