Debido a nuestro papel central en la infraestructura de localización, Smartling está bien posicionado para realizar análisis a nivel macro sobre patrones de uso y tendencias generales en el mundo del contenido web.

Y recientemente, encontramos algo interesante en esos datos.

Hemos observado que los bots de LLM están escaneando sitios localizados. Presumiblemente, esto es para extraerles contenido que les permita mejorar aún más sus propios modelos fundamentales.

Es una tendencia generalizada, con todos los tipos y tamaños de empresas afectadas. Sin entrar en la legalidad, la ética o la propiedad de ese contenido, nos llama la atención de inmediato el potencial de crear una cámara de eco en Internet debido a estos rastreos.

Contaminación de datos de entrenamiento y consecuencias

Con el aumento de las empresas que utilizan un enfoque de MT first o MT-backback para su contenido web, además de la reciente disponibilidad de LLM como proveedor de traducción, los LLM pronto pueden encontrarse en la posición de "comer su propia comida para perros" sin saberlo.

¿Cuál es el impacto en la calidad y la eficacia de los LLM cuando sus conjuntos de datos de entrenamiento se entrelazan con contenido traducido que se origina en los LLM?

Los LLM se basan en la amplia gama de contenido digital disponible gratuitamente en Internet, ya sea en un artículo de periódico, una revista académica, una publicación de blog o libros escaneados, para acumular suficiente contenido para aumentar el tamaño y la complejidad de un modelo preentrenado y, por lo tanto, proporcionar capacidades generativas similares a las humanas. Sin embargo, si una parte significativa del contenido que se ingiere fue creado únicamente por LLM sin ningún aprendizaje de refuerzo de la retroalimentación humana, ¿comenzarán a desviarse en términos de calidad y precisión de su producción? ¿El bucle de retroalimentación creará algún tipo de IA que eventualmente se extienda y modifique la estructura y el tono del lenguaje en general?

Es difícil estimar el impacto, pero al comienzo de esta revolución de la IA generativa, vemos los posibles escollos en el proceso de recopilación de datos utilizado por los proveedores de LLM.

Propiedad intelectual y cuestiones de valor

Identificar todo el tráfico entrante que pertenece a los bots es imposible porque dependemos de su uso adecuado de los encabezados User-Agent que declaran su origen y propósito. Muchos bots de scraping sin escrúpulos no solo ocultarán su propósito; Intentarán activamente disfrazarse y mezclarse con el flujo general de tráfico que ve cualquier sitio web público.

Un posible enfoque futuro para filtrar este efecto de "cámara de eco" es que los LLM trabajen con los proveedores de contenido para desarrollar algún tipo de marca de agua que identifique el contenido generado por un LLM para que pueda clasificarse y tratarse adecuadamente. Es probable que este tipo de marca de agua tenga demanda para mitigar los efectos de la desinformación, el robo de propiedad intelectual y otros comportamientos antisociales que pueden exhibir los malos actores.

Además, las empresas a las que no les importe o estén interesadas en que los LLM rastreen sus datos pueden optar algún día por monetizar su contenido vendiendo el acceso a los rastreadores de LLM. Esto podría resultar ser un negocio secundario lucrativo que paga un valor negociado por el contenido generado por humanos. Los productores de contenido ya han presentado demandas en curso contra los LLM en un intento de recuperar el control de su material protegido por derechos de autor.

¿Qué podemos hacer al respecto?

El raspado de contenido de los sitios web no es un secreto. Aun así, muchas empresas pueden sorprenderse al saber que les está sucediendo a ellas, y pueden ser participantes involuntarios en actividades que les aportan pocos beneficios mientras generan un valor infinito para los LLM.

En el mundo de la traducción automática, "usar la IA para ayudar a la IA" no es una idea novedosa. Cuando los datos lingüísticos específicos del cliente, de dominio o de cola larga son escasos, no es raro recurrir a técnicas de aumento de datos, como el rastreo web de sitios web similares, la traducción inversa o la fabricación de datos mediante la creación de variantes de idioma de origen y destino ligeramente diferentes.

Sin embargo, es vital que cualquier persona que confíe en los resultados del modelo comprenda los pros y los contras de tales enfoques. En la mayoría de los casos, estas técnicas solo pueden mejorar gradualmente la calidad del modelo. En última instancia, no reemplazan el lema subyacente del aprendizaje automático: la necesidad de datos relevantes y bien etiquetados.

¿Por qué esperar para traducir de manera más inteligente?

Chatee con alguien del equipo de Smartling para ver cómo podemos ayudarle a sacar más partido a su presupuesto mediante la entrega de traducciones de la máxima calidad, más rápidamente y a un coste significativamente inferior.
Cta-Card-Side-Image