Question 1

¿Por qué string.length devuelve números incorrectos para emoji y texto CJK?

Accepted Answer

El string.length de JavaScript devuelve unidades de código UTF-16, la unidad de almacenamiento que el lenguaje usa internamente. Para caracteres del Basic Multilingual Plane (los ~65.536 puntos de código originales hasta U+FFFF), un punto de código entra en una unidad de código. Pero los emoji como U+1F600 😀, los ideogramas CJK menos comunes por encima de U+FFFF, los símbolos matemáticos y las escrituras antiguas requieren un par sustituto — dos unidades UTF-16 codificando un punto de código. El iterador de cadenas de ECMA-262 (el operador spread [...str] desde ES2015) itera por puntos de código, así que [...'😀'].length devuelve 1, el valor que esperaría una persona. UAX #29 (Unicode 16.0, revisión 45) define un nivel aún más estricto llamado clústeres de grafemas, donde los emoji familia con ZWJ como 👨‍👩‍👧 cuentan como un único carácter percibido aunque se componen de cinco puntos de código; la segmentación completa por grafemas requiere Intl.Segmenter, que la mayoría de contadores no incluye.

Question 2

¿Cómo cuenta Twitter/X realmente los caracteres bajo el límite de 280?

Accepted Answer

La documentación de desarrolladores de X Corp (docs.x.com/fundamentals/counting-characters) especifica un conteo ponderado de caracteres tras Forma de Normalización Unicode C (NFC). La mayoría de caracteres cuentan 1; chino, japonés (Kanji, Hiragana, Katakana), coreano (Hangul) y formas fullwidth cuentan 2; todos los emoji cuentan 2 independientemente del tono de piel o complejidad ZWJ; las URLs se envuelven con el acortador t.co a un peso fijo de 23 caracteres independientemente de la longitud original. El número 280 se convirtió en titular cuando Twitter duplicó el límite original de 140 en 2017, pero para contenido en japonés o chino el límite práctico está más cerca de 140 caracteres ponderados. La biblioteca open-source oficial twitter-text es la implementación de referencia canónica cuando la precisión importa para una integración.

Question 3

¿De dónde viene el límite de 160 caracteres de los SMS?

Accepted Answer

3GPP TS 23.038 (originalmente Recomendación GSM 03.38, obligatoria para los terminales GSM) define el alfabeto GSM 7-bit por defecto. Un envolvente de mensaje SMS lleva hasta 140 octetos de carga útil; con 7 bits por carácter eso da ⌊140 × 8 / 7⌋ = 160 caracteres por SMS individual. Si un mensaje contiene cualquier carácter fuera de la tabla 7-bit — la mayoría del latín acentuado (é, ñ, ü), todos los emoji, todo CJK — la red recurre a codificación UCS-2 (16 bits por carácter) y el límite por segmento cae a 70. Algunos mercados despliegan tablas nacionales de desplazamiento de idioma (portugués, turco, varias escrituras brahmicas) que extienden el conjunto 7-bit. El SMS multi-parte (según 3GPP TS 23.040) añade una Cabecera de Datos de Usuario que reduce la carga útil por segmento a 153 (7-bit) o 67 (UCS-2).

Question 4

¿Los emoji siempre cuentan 2 caracteres en todas partes?

Accepted Answer

Depende del sistema. El conteo por puntos de código de ECMA-262 trata un emoji simple como U+1F600 😀 como 1; un par de indicadores regionales como 🇺🇸 (dos puntos de código U+1F1FA + U+1F1F8) como 2; y una familia ZWJ 👨‍👩‍👧 como 5. El conteo por clústeres de grafemas de UAX #29 colapsa los tres a 1 carácter percibido. El contador ponderado de X Corp cobra a cada emoji 2 caracteres independientemente de la complejidad subyacente. SMS con el alfabeto GSM 7-bit no transporta emoji en absoluto — el mensaje se re-codifica como UCS-2 y cada emoji cuesta una o dos unidades UTF-16 según el plano. El conteo 'correcto' depende de a qué regla de facturación o límite de plataforma quiera ajustarse el usuario.

Question 5

¿Cómo maneja este contador la accesibilidad para lectores de pantalla?

Accepted Answer

Los conteos total y sin espacios y las barras de progreso de Twitter/SMS están en una región marcada con aria-live="polite", que el Criterio de Éxito 4.1.3 de WCAG (Mensajes de Estado, introducido en WCAG 2.1 — recomendación del W3C del 5 de junio de 2018 — y trasladado sin cambios a WCAG 2.2, recomendación del 5 de octubre de 2023) define como el mecanismo canónico para que la tecnología asistiva anuncie actualizaciones de contenido sin mover el foco del teclado. El nivel polite encola anuncios detrás de cualquier habla que el usuario esté escuchando — apropiado para conteos no urgentes, donde assertive interrumpiría a mitad de frase en cada pulsación. Los lectores de pantalla (NVDA, JAWS, VoiceOver) consumen la región live automáticamente; el usuario no necesita hacer nada más.

Contador de caracteres

Contador de caracteres — Contar caracteres, letras y palabras online

Preguntas frecuentes