Toolify

문자 빈도 분석기 (글자, 모든 문자, 단어)

텍스트 붙여넣어 정렬된 빈도 표 도출. 세 모드: 모든 문자, 글자/숫자만, 또는 전체 단어. 암호 분석, 글쓰기 분석, 데이터셋 정리에 유용.

작동 방식

용도

암호 분석: 클래식 암호(시저, 치환)는 글자 빈도 보존. 영어 텍스트는 항상 E가 가장 흔한 글자, 그 다음 T, A, O, I, N. 암호 텍스트에서 대략 그 분포 보면 치환. CJK 언어는 매우 다른 분포지만 여전히 알아볼 수 있음.

글쓰기 분석: 과용된 단어 발견은 초안 개선의 가장 빠른 방법 중 하나. 'just'나 'really'가 1000단어 에세이에 50번 나타나면 고칠 버릇 발견.

데이터셋 정리: CSV 열을 본 도구로 스캔하면 떠도는 문자, 인코딩 오류, 예상치 못한 케이스 드러냄. 더 엄격한 시스템으로 데이터 가져오기 전 유용.

세 모드

모든 문자: 공백, 구두점, 줄 바꿈, 이모지 포함. 원시 텍스트 분석에 최적. 숨겨진 문자(폭 없는 공백, BOM)가 파일 손상시킨다고 의심될 때 유용.

글자와 숫자: 유니코드 글자와 숫자만 필터. 전통 글자 빈도 분석(암호 분석, 언어 식별)에 최적.

단어: 공백에서 분할하고 전체 단어 카운트. 글쓰기 분석과 문체 검사에 최적.

'대소문자 구분' 동작

끄기(기본): 'A'와 'a' 함께 카운트. 케이스가 부수적인 자연 텍스트의 글자 빈도에 최적.

켜기: 'A'와 'a' 별도 카운트. 케이스가 의미 있을 때 유용 — 프로그래밍 식별자, 브랜드 용어, 또는 대문자화 패턴 분석. 참고: 대소문자 비구분 폴딩은 로케일의 소문자 규칙 사용; 대부분 언어에 이는 관습적 유니코드 케이스 폴딩.

자주 묻는 질문

한국어, 일본어, 중국어 텍스트에 작동?

네. 글자 모드는 각 표의문자를 한 '글자'로 처리, 그래서 한자/간지 빈도 도출. 단어 모드는 공백에서 분할, 공백 없는 CJK 텍스트는 거대한 한 단어로 표시 — 그것에는 글자 모드 사용.

가장 흔한 영어 글자?

'E'(약 12.7%), 그 다음 T(9.1%), A(8.2%), O(7.5%), I(7.0%), N(6.7%). 이를 아는 것이 단순 치환 암호 깨기 기초.

이모지 카운트?

'모든 문자' 모드에서 네. 글자 모드는 그것 필터(유니코드 분류상 글자 아님).

왜 이모지가 때때로 여러 문자로 분할?

일부 이모지는 여러 유니코드 코드포인트(예: 깃발 = 두 지역 표시기 글자). 카운터는 코드포인트 존중하지만 모든 자소 클러스터는 아닌 JavaScript 문자열 반복 따름. 대부분 분석에 괜찮음.

표 내보내기 가능?

아직 — 지금은 렌더링된 표 복사 붙여넣기. CSV 내보내기 로드맵에 있음.

몇 개 항목 표시?

표에 상위 50. 꼬리 카운트는 하단에 요약.

왜 대소문자 비구분 그리스/터키어 결과가 예상과 안 맞나?

일부 언어는 비정상 케이스 규칙(터키 점 있는/없는 I; 독일 ß ↔ SS). 우리는 기본 유니코드 케이스 폴딩 따르는 JavaScript의 toLowerCase() 사용 — 보통 괜찮지만 엣지 케이스에서 놀랄 수 있음.

데이터가 전송되나요?

전송되지 않습니다. 모든 카운팅 로컬 실행.

관련 도구

최종 업데이트: