文字出現頻度分析 — 文字・文字種・単語別

テキストを貼り付けると、文字または単語の頻度を集計してテーブル表示。「全文字」「文字+数字のみ」「単語」3モード。

テキスト

大小を区別

仕組み

古典暗号の解析: シーザー暗号や換字式暗号は文字頻度を保存します。英語ではE→T→A→O→I→Nの順で出現し、日本語では「い」「ん」「し」「う」「と」が頻出。暗号文に類似分布があれば換字式の可能性大。

文章分析: 「すごく」「とても」「結局」など多用される語を見つけると、推敲の的が定まります。1000語の原稿で「ぶっちゃけ」が50回出てくるなら明らかな癖。

データクリーニング: CSVカラムの中身を本ツールで確認すると、不要文字・エンコード崩れ・大小不統一を発見できます。厳格なシステムへインポートする前のチェックに有用。

全文字: スペース・句読点・改行・絵文字すべてを集計。生データ分析や、ゼロ幅スペース・BOMなどの隠れ文字の検出に。

文字+数字のみ: Unicodeの文字・数字に絞り込み。古典的な文字頻度分析（暗号解析・言語識別）に最適。

単語: 空白で分割して語ごとに集計。文章分析・文体チェックに。

OFF（既定）: 「A」と「a」を同じ文字として集計。日本語にはほぼ影響なし、自然な英文の頻度分析に最適。

ON: 「A」と「a」を別文字として扱う。プログラミング識別子・ブランド固有名・大小パターン分析時に。なお大小変換はJavaScriptのtoLowerCase()準拠で、Unicode標準のケースフォールディングを使います。

›日本語・中国語・韓国語で動きますか?

動きます。「文字+数字のみ」モードでは各漢字・かな・ハングルが「1文字」として集計されます。「単語」モードは空白区切りなので、空白を持たないCJK文章では1単語にまとまってしまうため「文字」モードを推奨。

›英語で最も頻出する文字は?

「E」（約12.7%）、続いてT（9.1%）、A（8.2%）、O（7.5%）、I（7.0%）、N（6.7%）。これが単純換字式暗号の解読の基礎になります。

›絵文字も数えられる?

「全文字」モードでは数えます。「文字+数字のみ」モードではUnicode上「文字」ではないため除外されます。

›絵文字が複数文字に分かれることがあるのは?

一部の絵文字は複数のUnicodeコードポイントで構成されます（国旗 = 地域インジケータ2文字など）。本ツールはJavaScriptのコードポイント単位で集計し、グラフェムクラスタの結合は完全には扱いません。多くの分析では問題ありません。

›CSVエクスポートできる?

未対応です。表示テーブルをコピペでご利用ください。CSV出力は今後検討中。

›上位何件まで表示?

テーブルには上位50件、それ以下の合計件数を下部に集計表示します。

›大小区別なしの結果が期待と違う

一部言語（トルコ語のドット付き/なしI、ドイツ語のß↔SS等）には特殊なルールがあります。本ツールはJavaScriptの標準Unicodeケースフォールディングを使うため、これらのエッジケースで意外な結果になることがあります。

›入力データはサーバーに送信されますか?

いいえ。すべてブラウザ内で集計されます。