Toolify

Analizador de frecuencia (letras, caracteres o palabras)

Pega cualquier texto para obtener una tabla de frecuencias ordenada. Tres modos: todos los caracteres, solo letras/dígitos, o palabras enteras. Útil para criptoanálisis, análisis de escritura y limpieza de datasets.

Cómo funciona

Para qué sirve

Criptoanálisis: cifrados clásicos (César, sustitución) preservan frecuencias de letras. El texto en inglés siempre tiene la E como letra más común, luego T, A, O, I, N. Si ves más o menos esa distribución en cifrado, tienes una sustitución. Los idiomas CJK tienen distribuciones muy distintas pero aún reconocibles.

Análisis de escritura: detectar palabras sobreusadas es una de las formas más rápidas de mejorar borradores. Si 'just' o 'realmente' aparece 50 veces en un ensayo de 1000 palabras, has encontrado un tic que arreglar.

Limpieza de datasets: escanear una columna CSV con esta herramienta revela caracteres extraviados, errores de codificación y mayúsculas inesperadas. Útil antes de importar a un sistema más estricto.

Tres modos

Todos los caracteres: incluye espacios, puntuación, saltos de línea, emoji. Mejor para análisis de texto bruto. Útil cuando sospechas caracteres ocultos (espacio de ancho cero, BOM) corrompiendo un archivo.

Letras y dígitos: filtra a solo letras y números Unicode. Mejor para análisis tradicional de frecuencia (criptoanálisis, identificación de idioma).

Palabras: divide por espacios y cuenta palabras enteras. Mejor para análisis de escritura y revisión estilística.

Qué hace 'sensible a mayúsculas'

Off (por defecto): 'A' y 'a' cuentan juntas. Mejor para frecuencia de letras en texto natural donde el caso es incidental.

On: 'A' y 'a' cuentan separadas. Útil cuando el caso es significativo — identificadores de programación, términos de marca o análisis de patrones de capitalización. Nota: el plegado insensible a caso usa las reglas de minúsculas de la locale; para la mayoría de idiomas es el plegado Unicode convencional.

Preguntas frecuentes

¿Funciona para japonés, chino, coreano?

Sí. El modo letras trata cada ideograma como una 'letra', así obtienes frecuencia de hanzi/kanji. El modo palabras divide por espacios, así que texto CJK sin espacios aparece como una palabra gigante — usa modo letras para esos.

¿Letra más común en inglés?

'E' (~12.7%), luego T (9.1%), A (8.2%), O (7.5%), I (7.0%), N (6.7%). Saber esto es la base para romper cifrados de sustitución simples.

¿Se cuentan los emojis?

Sí en modo 'todos los caracteres'. El modo letras los filtra (no son letras según la clasificación Unicode).

¿Por qué los emojis a veces se dividen en varios caracteres?

Algunos emojis son múltiples puntos de código Unicode (p.ej. banderas = dos letras indicadoras regionales). El contador sigue la iteración de cadenas de JavaScript que respeta puntos de código pero no todos los grafemas. Para la mayoría de análisis está bien.

¿Puedo exportar la tabla?

Aún no — copia-pega la tabla por ahora. Exportar CSV está en el roadmap.

¿Cuántas entradas muestra?

Top 50 en la tabla. La cola se resume al final.

¿Por qué los resultados case-insensitive en griego/turco no coinciden con mi expectativa?

Algunos idiomas tienen reglas inusuales (turco I con/sin punto; alemán ß ↔ SS). Usamos toLowerCase() de JavaScript que sigue el plegado Unicode por defecto — bien usualmente pero puede sorprender en casos extremos.

¿Los datos salen del navegador?

No. Todo el conteo corre localmente.

Herramientas relacionadas

Última actualización: