Toolify

字符频率分析器 (字母、所有字符、词)

粘贴任意文本得到排序的频率表。三种模式: 全字符、仅字母/数字、整词。密码分析、写作分析、数据集清理适用。

工作原理

用途

密码分析: 古典密码 (凯撒、替换) 保留字母频率。英文文本中 E 最常见, 其次 T、A、O、I、N。如果在密文中看到大致相同的分布, 那就是替换密码。CJK 语言分布很不同但仍可识别。

写作分析: 找过度使用的词是改稿最快方法之一。如果 'just' 或 'really' 在 1000 词文章中出现 50 次, 你找到了要修的口头禅。

数据集清理: 用本工具扫 CSV 列可发现散乱字符、编码错误、意外大小写。在导入到更严格系统前有用。

三种模式

所有字符: 含空格、标点、换行、表情。原始文本分析最佳。怀疑隐藏字符 (零宽空格、BOM) 破坏文件时有用。

字母与数字: 仅过滤 Unicode 字母和数字。传统字母频率分析 (密码分析、语言识别) 最佳。

词: 按空白分割, 数整词。写作分析与文体检查最佳。

「区分大小写」做什么

关 (默认): 'A' 与 'a' 一起数。自然文本字母频率分析最佳, 大小写无关时。

开: 'A' 与 'a' 分开数。大小写有意义时有用 — 编程标识符、品牌词、分析大写模式。注: 大小写折叠用语言环境的小写规则; 多数语言这是惯例 Unicode 折叠。

常见问题

对中文、日文、韩文有效?

有效。字母模式把每个汉字/谚文当一个「字母」, 所以得到字符频率。词模式按空白分割, 没空格的 CJK 文本会显示为一个巨长词 — 那种情况用字母模式。

英文最常见字母?

'E' (约 12.7%), 然后 T (9.1%)、A (8.2%)、O (7.5%)、I (7.0%)、N (6.7%)。这是破解简单替换密码的基础。

表情符号会被统计?

在「所有字符」模式会。字母模式过滤掉 (按 Unicode 分类不是字母)。

为什么表情有时被分成多个字符?

一些表情是多个 Unicode 码点 (旗帜 = 两个区域指示字母)。计数器遵循 JavaScript 字符串迭代, 尊重码点但不是所有字形簇。多数分析够用。

可以导出表格?

暂时不能 — 复制粘贴渲染表格。CSV 导出在路线图。

显示多少条?

表格中前 50 条。尾部数量在底部汇总。

为什么希腊/土耳其语不区分大小写结果不符合预期?

一些语言有特殊大小写规则 (土耳其语带点/不带点 I; 德语 ß ↔ SS)。我们用 JavaScript 的 toLowerCase() 遵循默认 Unicode 折叠 — 通常够用但边角情况会让人意外。

数据会上传吗?

不会。所有计数在本地。

相关工具

最后更新: