Question 1

¿Qué es LCS y por qué produce mejores diffs que la comparación línea-por-línea?

Accepted Answer

Un Longest Common Subsequence (LCS, subsecuencia común más larga) es la secuencia más larga de líneas que aparecen en el mismo orden en ambas entradas (no necesariamente contiguas). Hunt y Szymanski (1977, CACM 20(5):350–353) dieron el primer algoritmo LCS rápido; Hirschberg (1975, CACM 18(6):341–343) demostró que puede computarse en espacio lineal; Myers (1986, Algorithmica 1:251–266) dio el algoritmo O(ND) que potencia git diff (por defecto) y GNU diffutils (variante heurística por defecto). El planteamiento LCS es '¿cuál es el conjunto más grande de líneas que podemos alinear entre la entrada A y la entrada B?', y el diff es entonces 'todo lo que está en A pero no en el LCS = eliminado; todo lo que está en B pero no en el LCS = añadido; todo lo que está en el LCS = igual'. El diff ingenuo línea-por-línea (comparar línea 1 de A contra línea 1 de B, etc.) maneja mal las inserciones y eliminaciones: una sola línea añadida al inicio de B se propaga en N pares quitar/añadir para todo lo de abajo.

Question 2

¿Por qué la herramienta cae a comparación naive por encima de 4M celdas?

Accepted Answer

La tabla LCS de programación dinámica es un Int32Array de tamaño (n+1)×(m+1) donde n y m son los recuentos de línea de la entrada A y B. A 4 millones de celdas el array usa unos 16 MB de memoria; para dos entradas de 2.000 líneas ese es el límite. Por encima del cap, asignar gigabytes de memoria colapsaría la página o ralentizaría el navegador hasta detenerlo. El respaldo es una comparación rápida línea-por-línea: recorrer ambas entradas en paralelo, marcando las líneas que difieren en la misma posición. No es tan precisa como LCS — una sola línea insertada se propaga en N diferencias debajo — pero permite que la página siga respondiendo con entradas muy grandes en lugar de morir.

Question 3

¿En qué se diferencia el algoritmo O(ND) de Myers de Hunt-Szymanski?

Accepted Answer

Hunt y Szymanski (1977) computan LCS en tiempo O((r+n) log n) donde r es el número de 'pares ordenados de posiciones coincidentes' entre A y B — rápido cuando las coincidencias son escasas, lento cuando son densas. Myers (1986) reformuló LCS como un problema de camino más corto en grafos y dio un algoritmo O(ND) donde N es la longitud de entrada y D es el tamaño del diff resultante; para diffs típicos de control de versiones donde la mayoría de líneas están sin cambios (D es pequeño), Myers es drásticamente más rápido. Hirschberg (1975) es una optimización distinta: aplicada a la recurrencia estándar de programación dinámica O(nm), su construcción divide y vencerás reduce el espacio auxiliar de O(nm) a O(n+m) a costa de un factor de tiempo aproximadamente 2× — así el mismo algoritmo LCS puede correr sobre entradas mucho más grandes sin el blowup de memoria. La implementación de esta página usa la programación dinámica cuadrática directa porque produce scripts de edición (añadido/eliminado/igual) que coinciden con la salida estilo git diff; Myers y Hirschberg son optimizaciones prácticas encima, no semánticas de salida diferentes.

Question 4

¿Por qué insertar una línea al inicio de la entrada B no se propaga como quitar/añadir para el resto?

Accepted Answer

Porque el algoritmo LCS encuentra primero la subsecuencia común más larga, y luego deriva el diff de ella. Si la entrada A es `[a, b, c, d]` y la entrada B es `[x, a, b, c, d]`, el LCS es `[a, b, c, d]` — toda línea de A aparece en B en el mismo orden. El resultado del diff es 'B tiene una línea extra (x) al inicio' y las cuatro líneas siguientes se marcan 'igual' en ambos lados. El diff ingenuo línea-por-línea compararía A[0]=a contra B[0]=x (distinto), A[1]=b contra B[1]=a (distinto), y así sucesivamente — cada línea se propaga en un cambio falso. Esta es la razón práctica por la que git diff y Unix diff(1) usan LCS en lugar de comparación ingenua: los parches se mantienen mínimos y legibles incluso cuando el contenido está reordenado.

Question 5

¿Cómo maneja esta herramienta la accesibilidad para lectores de pantalla?

Accepted Answer

La región de resultado del diff está marcada con aria-live="polite", el patrón del Criterio de Éxito 4.1.3 de WCAG (Mensajes de Estado, introducido en WCAG 2.1, recomendación del W3C del 5 de junio de 2018; trasladado sin cambios a WCAG 2.2, recomendación del 5 de octubre de 2023). Las regiones live polite encolan anuncios tras cualquier habla en progreso, así que editar cualquiera de los paneles de entrada anuncia el nuevo resultado del diff sin interrumpir al usuario a mitad de frase. Los lectores de pantalla (NVDA, JAWS, VoiceOver) consumen la región live automáticamente; el usuario no necesita hacer nada más.

Comparar Textos Online

Original

Modificado

Comparar Textos Online — Diff Checker para Encontrar Diferencias

Preguntas frecuentes