文字 出現頻度 分析 — 文字・文字種・単語別
テキストを貼り付けると、文字または単語の頻度を集計してテーブル表示。「全文字」「文字+数字のみ」「単語」3モード。
仕組み
用途
古典暗号の解析: シーザー暗号や換字式暗号は文字頻度を保存します。英語ではE→T→A→O→I→Nの順で出現し、日本語では「い」「ん」「し」「う」「と」が頻出。暗号文に類似分布があれば換字式の可能性大。
文章分析: 「すごく」「とても」「結局」など多用される語を見つけると、推敲の的が定まります。1000語の原稿で「ぶっちゃけ」が50回出てくるなら明らかな癖。
データクリーニング: CSVカラムの中身を本ツールで確認すると、不要文字・エンコード崩れ・大小不統一を発見できます。厳格なシステムへインポートする前のチェックに有用。
3つのモード
全文字: スペース・句読点・改行・絵文字すべてを集計。生データ分析や、ゼロ幅スペース・BOMなどの隠れ文字の検出に。
文字+数字のみ: Unicodeの文字・数字に絞り込み。古典的な文字頻度分析(暗号解析・言語識別)に最適。
単語: 空白で分割して語ごとに集計。文章分析・文体チェックに。
「大小を区別」の動作
OFF(既定): 「A」と「a」を同じ文字として集計。日本語にはほぼ影響なし、自然な英文の頻度分析に最適。
ON: 「A」と「a」を別文字として扱う。プログラミング識別子・ブランド固有名・大小パターン分析時に。なお大小変換はJavaScriptのtoLowerCase()準拠で、Unicode標準のケースフォールディングを使います。
よくある質問
›日本語・中国語・韓国語で動きますか?
動きます。「文字+数字のみ」モードでは各漢字・かな・ハングルが「1文字」として集計されます。「単語」モードは空白区切りなので、空白を持たないCJK文章では1単語にまとまってしまうため「文字」モードを推奨。
›英語で最も頻出する文字は?
「E」(約12.7%)、続いてT(9.1%)、A(8.2%)、O(7.5%)、I(7.0%)、N(6.7%)。これが単純換字式暗号の解読の基礎になります。
›絵文字も数えられる?
「全文字」モードでは数えます。「文字+数字のみ」モードではUnicode上「文字」ではないため除外されます。
›絵文字が複数文字に分かれることがあるのは?
一部の絵文字は複数のUnicodeコードポイントで構成されます(国旗 = 地域インジケータ2文字など)。本ツールはJavaScriptのコードポイント単位で集計し、グラフェムクラスタの結合は完全には扱いません。多くの分析では問題ありません。
›CSVエクスポートできる?
未対応です。表示テーブルをコピペでご利用ください。CSV出力は今後検討中。
›上位何件まで表示?
テーブルには上位50件、それ以下の合計件数を下部に集計表示します。
›大小区別なしの結果が期待と違う
一部言語(トルコ語のドット付き/なしI、ドイツ語のß↔SS等)には特殊なルールがあります。本ツールはJavaScriptの標準Unicodeケースフォールディングを使うため、これらのエッジケースで意外な結果になることがあります。
›入力データはサーバーに送信されますか?
いいえ。すべてブラウザ内で集計されます。
関連ツール
最終更新: