El contenido digital no siempre se ve igual cuando se muestra en diferentes idiomas. Sin una codificación adecuada, los caracteres pueden aparecer confusos, lo que lleva a confusión, corrupción de datos o incluso fallas en el sitio en los mercados globales.
Ya sea que esté creando una aplicación multilingüe o localizando su sitio web, la codificación de caracteres es uno de los procesos que lo ayuda a entregar texto preciso y experiencias de usuario fluidas. Comprender su importancia y los diferentes formatos, como la codificación ASCII y Unicode, le permite traducir y mostrar fácilmente sus mensajes para audiencias multilingües.
En esta guía, explicaremos qué es la codificación de caracteres, los estándares clave que se utilizan hoy en día y por qué la codificación es crucial para la internacionalización.
¿Qué es la codificación de caracteres y cómo afecta a la localización exitosa de sitios web?
La codificación de caracteres implica convertir texto en números o símbolos para que las máquinas puedan procesar y mostrar texto en sitios web, aplicaciones y sistemas operativos. Dado que las computadoras operan con dígitos binarios (0 y 1), la codificación de caracteres proporciona una forma de traducir texto de diferentes idiomas a un formato digital que las máquinas pueden interpretar fácilmente.
Aquí hay un ejemplo de codificación básico: en un estándar de codificación, "A" podría estar representado por la secuencia binaria "01000001". La computadora lee estos datos binarios y el estándar de codificación los traduce de nuevo al carácter legible por humanos correspondiente: "A".
La codificación de caracteres juega un papel fundamental en la localización de las empresas globales porque les permite mostrar con precisión una amplia gama de caracteres de varios sistemas de escritura, incluidos chino, árabe y cirílico. Esto conduce a una traducción más precisa y rápida.
Las empresas también pueden usar la Red de entrega global (GDN) de Smartling, un proxy web de traducción, para lanzar rápidamente traducciones para sitios web y aplicaciones. Una vez configurado, el contenido puede fluir sin problemas desde su sitio web a Smartling para su traducción. Smartling incluso proporciona un menú de caracteres especiales para diferentes idiomas y opciones de formato que puede insertar fácilmente en sus traducciones.
¿Cuáles son los principales tipos de codificación de caracteres?
Cada formato de codificación de caracteres admite diferentes idiomas y necesidades técnicas para la localización de contenido.
|
Tipo de codificación |
Características principales |
Idiomas admitidos |
Casos prácticos |
|
ASCII |
7 bits, representa 128 caracteres, incluidas letras inglesas, números, símbolos básicos |
Inglés |
Computación temprana, archivos de texto simples, sistemas heredados |
|
ISO-8859-1 |
8 bits, representa varios caracteres de Europa Occidental/Oriental |
Idiomas de Europa occidental, como alemán, francés y español |
Contenido web heredado, documentos internacionales |
|
UTF-8 |
Longitud variable (1-4 bytes), compatible con versiones anteriores de ASCII, maneja todos los caracteres Unicode, no se requiere BOM |
Casi todos los idiomas |
Contenido web, aplicaciones modernas, intercambio de datos entre plataformas |
|
UTF-16 |
Una o dos unidades de código de 16 bits |
Casi todos los idiomas, además de caracteres especiales como emojis |
Contenido web e internacional, archivos de texto modernos con caracteres especiales |
|
Windows-1252 |
8 bits, incluye caracteres de Europa occidental; superconjunto de ASCII |
Idiomas de Europa del Este como el polaco y el checo |
Aplicaciones heredadas basadas en Windows |
A continuación, se muestra más de cerca los tipos más comunes de codificación de caracteres, incluido cómo funcionan y ejemplos de cómo se usan en aplicaciones y sitios web localizados .
ASCII
El Código Estándar Estadounidense para el Intercambio de Información (ASCII) es uno de los sistemas de codificación de caracteres más antiguos y simples. ASCII usa 7 bits para codificar 128 caracteres, cubriendo letras, números y signos de puntuación básicos en inglés.
Con ASCII, cada carácter se asigna a un código numérico único. Por ejemplo, la letra mayúscula "A" se representa como 65 y el signo de exclamación "!" es 33. En binario, "A" se convierte en "01000001". ASCII es fundamental para los esquemas de codificación modernos, pero se limita al inglés y carece de soporte para caracteres acentuados o no latinos.
ISO-8859-1
ISO-8859-1 es un formato de codificación de caracteres de un solo byte de 8 bits desarrollado por la Organización Internacional de Normalización (ISO) para extender las capacidades de ASCII a los idiomas de Europa occidental.
ISO-8859-1 codifica 256 caracteres, incluidas letras adicionales con acentos como "é" y "ö", y una gran cantidad de caracteres especiales de puntuación y símbolos. Por ejemplo, el carácter "é" está representado por el código 233 y "ñ" es 241. Sin embargo, ISO-8859-1 no puede codificar caracteres fuera del conjunto de Europa occidental, lo que limita su uso para aplicaciones internacionales.
UTF-8
Formato de transformación Unicode: 8 bits (UTF-8) es un formato de codificación de caracteres de longitud variable diseñado para una compatibilidad de idiomas global y eficiente. Con UTF-8, todos los caracteres ASCII se codifican con un byte y mantienen los mismos valores binarios. Los caracteres que no son ASCII, como "€", usan secuencias de varios bytes, como "11100010 10000010 10101100" para "€" en binario.
UTF-8 puede codificar todos los caracteres del estándar Unicode para una compatibilidad multilingüe perfecta. Se ha convertido en el formato de codificación dominante para la web y las aplicaciones modernas debido a su capacidad para manejar grandes conjuntos de idiomas.
UTF-16
UTF-16 representa cada carácter en el estándar Unicode utilizando una o dos unidades de código de 16 bits. Los caracteres de los alfabetos normales se almacenan como una sola unidad de 16 bits y otros caracteres (como emojis y alfabetos históricos raros) aparecen como pares suplentes, que son dos unidades de código de 16 bits combinadas.
Por ejemplo, "A" (U+0041) en UTF-16 es 0x0041, mientras que el emoji de cara sonriente "😊" (U+1F60A) se almacena como el par sustituto 0xD83D 0xDE0A. Esto permite que UTF-16 codifique más de un millón de caracteres diferentes, aunque usa más espacio que UTF-8 para algunos textos.
Windows-1252
Windows-1252 es un tipo de codificación de caracteres de 8 bits desarrollado por Microsoft para idiomas de Europa occidental, comúnmente denominado codificación "ANSI" en entornos Windows. Es similar a ISO-8859-1 pero incluye caracteres adicionales como comillas (" ") y el signo del euro (€).
Windows-1252 se usó ampliamente en documentos y aplicaciones heredados de Windows, pero ha sido reemplazado en gran medida por UTF-8, especialmente para compatibilidad internacional.
Resolver desafíos de codificación de caracteres en un mundo multilingüe: 5 desafíos y mejores prácticas
La codificación de caracteres es técnica y matizada, lo que plantea ciertos desafíos para las empresas que intentan llegar a audiencias multilingües. A medida que localizas contenido a escala, ten en cuenta estos problemas de codificación comunes y las prácticas recomendadas para solucionarlos:
1. Texto ilegible
Cuando el software interpreta el texto utilizando la codificación de caracteres incorrecta, puede dar lugar a caracteres confusos e ilegibles como signos de interrogación o símbolos aleatorios. Esto suele suceder cuando el texto codificado en un formato (como UTF-8) se abre o se representa con una codificación diferente (como ISO-8859-1), lo que lleva a interpretaciones de bytes no coincidentes. El texto ilegible crea confusión para los usuarios y puede disminuir la credibilidad de un sitio.
Práctica recomendada: Intenta utilizar una codificación coherente en todo el contenido. Puede hacerlo utilizando etiquetas HTML como <meta charset="UTF-8"> para asegurarse de que los navegadores procesen el texto según lo previsto.
2. Pérdida de datos durante la conversión
Al convertir contenido entre diferentes codificaciones, como de Windows-1252 a UTF-8, es posible que algunos caracteres se pierdan o se sustituyan incorrectamente. Esto puede afectar gravemente la legibilidad del contenido multilingüe y localizado, y si no lo detecta temprano, podría provocar daños en los datos.
Práctica recomendada: Utilice herramientas de traducción compatibles con Unicode que agilicen la conversión entre formatos de codificación. Además, siempre haga una copia de seguridad de los datos antes de realizar cambios de codificación y probar los resultados para mayor precisión.
3. Falta de soporte multilingüe de fuentes o glifos
Incluso con el formato de codificación de caracteres correcto, el texto puede aparecer como cuadrados en blanco si las fuentes o glifos necesarios no están disponibles en el dispositivo del usuario. Este problema es especialmente común cuando se usan letras acentuadas o emojis que los conjuntos de fuentes más antiguos o básicos podrían no admitir.
Práctica recomendada: Utilice fuentes seguras para la Web que admitan una amplia gama de caracteres en todos los idiomas. Cree una pila de fuentes de caracteres de reserva que el sistema pueda insertar automáticamente en el texto si es necesario.
4. Texto bidireccional
Idiomas como el árabe y el hebreo utilizan un sistema de escritura de derecha a izquierda (RTL), lo que puede provocar problemas de diseño y alineación, especialmente cuando se mezcla con alfabetos de izquierda a derecha (LTR) como el inglés. Si estos idiomas no están codificados correctamente, pueden interrumpir el flujo de lectura o romper el formato por completo.
Práctica recomendada: Aplique marcas correctas específicas del idioma y la dirección, como dir="rtl" y lang="ar" en HTML, para ayudar a los navegadores a mostrar el texto con precisión. Elija marcos que admitan diseños RTL y pruebe el contenido para asegurarse de que se muestre correctamente para todas las audiencias.
5. Problemas con la marca de orden de bytes
Una marca de orden de bytes (BOM) es un marcador especial al principio de un archivo de texto que significa orden de bytes y codificación. Las listas de materiales pueden causar problemas como:
- Caracteres invisibles inesperados al comienzo de los archivos (por ejemplo, "")
- Incompatibilidad con algunos sistemas, como navegadores web más antiguos
- Interoperabilidad entre aplicaciones
Práctica recomendada: Al procesar archivos de texto, use herramientas que puedan detectar automáticamente y manejar las listas de materiales de manera adecuada. Para el contenido web, omita la lista de materiales en UTF-8 para evitar problemas de visualización.
Facilite la codificación con las herramientas de localización de Smartling
La codificación de caracteres a menudo es invisible para los usuarios, pero es vital para la forma en que experimentan el contenido en todos los dispositivos e idiomas, desde aplicaciones localizadas hasta sitios web multilingües. Al comprender los conceptos básicos de la codificación, los equipos de traducción y desarrollo pueden evitar errores costosos y brindar una experiencia más fluida para audiencias globales.
Smartling está diseñado para ayudar a las empresas a crecer globalmente al tiempo que simplifica la traducción para los desarrolladores con un potente proxy web y una API sólida. Smartling se integra directamente con sus pilas tecnológicas existentes, eliminando las tareas manuales y agilizando el proceso de traducción. De hecho, Smartling le permite agregar nuevos idiomas y activar flujos de trabajo de traducción en cada inserción de código, para que pueda expandirse internacionalmente sin perder el ritmo.
British Airways, por ejemplo, aprovechó el proxy de traducción web de Smartling para localizar su sitio web para los clientes coreanos. Con la plataforma centralizada de Smartling, British Airways pudo traducir más de 500,000 palabras y lanzar el doble de rápido de lo habitual. Lea el estudio de caso para ver cómo lo hicieron posible.