字元頻率分析器 (字母、所有字元、詞)

貼上任意文本得到排序的頻率表。三種模式: 全字元、僅字母/數字、整詞。密碼分析、寫作分析、資料集清理適用。

文本

區分大小寫

運作原理

密碼分析: 古典密碼 (凱撒、替換) 保留字母頻率。英文文本中 E 最常見, 其次 T、A、O、I、N。如果在密文中看到大致相同的分佈, 那就是替換密碼。CJK 語言分佈很不同但仍可識別。

寫作分析: 找過度使用的詞是改稿最快方法之一。如果 'just' 或 'really' 在 1000 詞文章中出現 50 次, 你找到了要修的口頭禪。

資料集清理: 用本工具掃 CSV 列可發現散亂字元、編碼錯誤、意外大小寫。在匯入到更嚴格系統前有用。

所有字元: 含空格、標點、換行、表情。原始文本分析最佳。懷疑隱藏字元 (零寬空格、BOM) 破壞檔案時有用。

字母與數字: 僅過濾 Unicode 字母和數字。傳統字母頻率分析 (密碼分析、語言識別) 最佳。

詞: 按空白分割, 數整詞。寫作分析與文體檢查最佳。

關 (預設): 'A' 與 'a' 一起數。自然文本字母頻率分析最佳, 大小寫無關時。

開: 'A' 與 'a' 分開數。大小寫有意義時有用 — 程式設計識別符號、品牌詞、分析大寫模式。注: 大小寫摺疊用語言環境的小寫規則; 多數語言這是慣例 Unicode 摺疊。

›對中文、日文、韓文有效?

有效。字母模式把每個漢字/諺文當一個「字母」, 所以得到字元頻率。詞模式按空白分割, 沒空格的 CJK 文本會顯示為一個巨長詞 — 那種情況用字母模式。

›英文最常見字母?

'E' (約 12.7%), 然後 T (9.1%)、A (8.2%)、O (7.5%)、I (7.0%)、N (6.7%)。這是破解簡單替換密碼的基礎。

›表情符號會被統計?

在「所有字元」模式會。字母模式過濾掉 (按 Unicode 分類不是字母)。

›為什麼表情有時被分成多個字元?

一些表情是多個 Unicode 碼點 (旗幟 = 兩個區域指示字母)。計數器遵循 JavaScript 字串迭代, 尊重碼點但不是所有字形簇。多數分析夠用。

›可以匯出表格?

暫時不能 — 複製貼上渲染表格。CSV 匯出在路線圖。

›顯示多少條?

表格中前 50 條。尾部數量在底部彙總。

›為什麼希臘/土耳其語不區分大小寫結果不符合預期?

一些語言有特殊大小寫規則 (土耳其語帶點/不帶點 I; 德語 ß ↔ SS)。我們用 JavaScript 的 toLowerCase() 遵循預設 Unicode 摺疊 — 通常夠用但邊角情況會讓人意外。

›資料會上傳嗎?

不會。所有計數在本地。