字元頻率分析器 (字母、所有字元、詞)
貼上任意文本得到排序的頻率表。三種模式: 全字元、僅字母/數字、整詞。密碼分析、寫作分析、資料集清理適用。
運作原理
用途
密碼分析: 古典密碼 (凱撒、替換) 保留字母頻率。英文文本中 E 最常見, 其次 T、A、O、I、N。如果在密文中看到大致相同的分佈, 那就是替換密碼。CJK 語言分佈很不同但仍可識別。
寫作分析: 找過度使用的詞是改稿最快方法之一。如果 'just' 或 'really' 在 1000 詞文章中出現 50 次, 你找到了要修的口頭禪。
資料集清理: 用本工具掃 CSV 列可發現散亂字元、編碼錯誤、意外大小寫。在匯入到更嚴格系統前有用。
三種模式
所有字元: 含空格、標點、換行、表情。原始文本分析最佳。懷疑隱藏字元 (零寬空格、BOM) 破壞檔案時有用。
字母與數字: 僅過濾 Unicode 字母和數字。傳統字母頻率分析 (密碼分析、語言識別) 最佳。
詞: 按空白分割, 數整詞。寫作分析與文體檢查最佳。
「區分大小寫」做什麼
關 (預設): 'A' 與 'a' 一起數。自然文本字母頻率分析最佳, 大小寫無關時。
開: 'A' 與 'a' 分開數。大小寫有意義時有用 — 程式設計識別符號、品牌詞、分析大寫模式。注: 大小寫摺疊用語言環境的小寫規則; 多數語言這是慣例 Unicode 摺疊。
常見問題
›對中文、日文、韓文有效?
有效。字母模式把每個漢字/諺文當一個「字母」, 所以得到字元頻率。詞模式按空白分割, 沒空格的 CJK 文本會顯示為一個巨長詞 — 那種情況用字母模式。
›英文最常見字母?
'E' (約 12.7%), 然後 T (9.1%)、A (8.2%)、O (7.5%)、I (7.0%)、N (6.7%)。這是破解簡單替換密碼的基礎。
›表情符號會被統計?
在「所有字元」模式會。字母模式過濾掉 (按 Unicode 分類不是字母)。
›為什麼表情有時被分成多個字元?
一些表情是多個 Unicode 碼點 (旗幟 = 兩個區域指示字母)。計數器遵循 JavaScript 字串迭代, 尊重碼點但不是所有字形簇。多數分析夠用。
›可以匯出表格?
暫時不能 — 複製貼上渲染表格。CSV 匯出在路線圖。
›顯示多少條?
表格中前 50 條。尾部數量在底部彙總。
›為什麼希臘/土耳其語不區分大小寫結果不符合預期?
一些語言有特殊大小寫規則 (土耳其語帶點/不帶點 I; 德語 ß ↔ SS)。我們用 JavaScript 的 toLowerCase() 遵循預設 Unicode 摺疊 — 通常夠用但邊角情況會讓人意外。
›資料會上傳嗎?
不會。所有計數在本地。
相關工具
最後更新: