Question 1

¿Por qué X (Twitter, Discord, Mastodon…) me quita el espacio de ancho cero que acabo de pegar?

Accepted Answer

Cada plataforma aplica su propia normalización. Twitter filtra U+200B de cuerpos de tweet y nombres visibles según reportes de terceros. Discord acepta U+3164 (Hangul Filler) porque su General Category Unicode es Lo (Letra, otro) y no Cf (Formato), de modo que los validadores que bloquean caracteres de formato lo dejan pasar. Mastodon aplica RFC 7564 PRECIS IdentifierClass a los handles remotos y reglas ASCII más estrictas al registro local — los invisibles fallan en ambas barreras. Las diferencias son intencionadas: cada superficie decide cuánto quiere apretar.

Question 2

¿Por qué U+200B son 3 bytes cuando un espacio ASCII es 1?

Accepted Answer

UTF-8 codifica los puntos de código del rango U+0800–U+FFFF con tres bytes (RFC 3629 §3). U+200B cae en ese rango. El espacio ASCII (U+0020) está en U+0000–U+007F y se codifica con un único byte. El ancho visual es cero en ambos, pero el coste en cable y disco se multiplica por 3. Un tweet rellenado a 280 caracteres con U+200B carga el mismo payload que unos 840 caracteres ASCII, lo cual importa para gateways SMS, rotación de logs y cualquier sistema que facture o presupueste por byte en lugar de por glifo visible.

Question 3

¿Son legítimos los caracteres de ancho cero o solo sirven para trucos?

Accepted Answer

Ambas cosas. U+200B marca límites de palabra en tailandés, jemer, birmano y lao — escrituras que no separan las palabras con espacios — y el Unicode Standard Annex #14 lo trata como oportunidad de salto de línea suave. U+200C y U+200D controlan ligaduras en árabe, persa y devanagari, y las secuencias ZWJ de emoji (el emoji de familia 👨‍👩‍👧 son cinco puntos de código: U+1F468 + U+200D + U+1F469 + U+200D + U+1F467). El abuso y el uso legítimo comparten los mismos puntos de código; la postura de seguridad vive en la normalización, no en prohibir el carácter.

Question 4

¿Sirven estos caracteres para atacar asistentes de IA o sitios web?

Accepted Answer

La inyección de prompts oculta mediante caracteres del bloque Tag (U+E0000–U+E007F) se demostró contra Amazon Q Developer en 2025. AWS Bedrock Guardrails añadió un filtro de prompt-attack ese año, aunque AWS WAF no incluye una regla gestionada específica para inyección con invisibles — la práctica habitual es desplegar reglas byte-match propias. En la web, los dominios IDN homógrafos abusan de caracteres visualmente confundibles; el estudio de tráfico DNS de Akamai (2022) detectó 6.670 dominios de este tipo en 29.071 dispositivos durante 32 días. MITRE cataloga la debilidad subyacente como CWE-1007.

Question 5

¿Cómo se defienden los registradores y protocolos frente al abuso de invisibles?

Accepted Answer

En la capa DNS, IDNA normaliza las etiquetas Unicode a Punycode (RFC 3492 / IDNA2008 RFC 5891–5892); las ICANN IDN Implementation Guidelines v4.1 (noviembre 2022) fijan la línea base de los registros. En la capa de protocolo, RFC 7564 (Marco PRECIS) define la IdentifierClass que las aplicaciones estrictas usan para rechazar caracteres de formato en nombres de usuario y de recurso. UTS #39 (Unicode Security Mechanisms) define el algoritmo de detección de confusables que registradores y sistemas de identidad emplean cuando la política exige comparar cadenas por similitud visual.

Carácter invisible

Caracteres invisibles en 2026 — qué son y dónde fallan

Preguntas frecuentes