ROOT 가이드

히스토그램의 정의와 의미

히스토그램 (Histogram)

그림 1

히스토그램은 어떠한 변수에 대해서 구간별 빈도수를 나타낸 그래프다. 위의 예제는 0부터 20까지의 범위를 10개의 동일한 구간으로 나누고 각 구간에 대해서 변수 x의 빈도수를 그린 히스토그램이다. 여기서 알 수 있듯이 히스토그램의 핵심적인 특성은 다음과 같이 볼 수 있다.

  • 변수를 보고자 하는 범위: [0,20)
  • 구간을 나누는 방식: 10개의 구간 동일한 구간
  • 분포를 보고자 하는 변수: x

일반적인 경우 히스토그램의 구간을 나눌 때 동일한 간격으로 나누기 때문에 구간의 개수가 중요해진다. 또 표본의 크기가 한정적일 수록 변수 분포의 경향을 보기가 어려워 지는데 이때 각 구간의 넓이가 중요해진다. 가령 앞선 예제의 히스토그램을 그릴 때 10개의 구간이 아닌 4개, 혹은 50개의 구간으로 나누었을 경우 다음과 같은 결과가 나온다.

그림 2
그림 3

변수 x의 분포가 정규분포(Gaussian Distribution)이었다고 가정해 보자. 그림 2의 경우 x의 분포가 약 3개의 구간에 걸쳐서 나타나는데 이를 두고 경향이 어떻다고 말하기에는 분포가 드러나는 구간이 너무 적다. 개인적인 생각이지만 정규분포를 히스토그램을 통해서 직관적으로 판단하려면 최소 7개 이상의 구간에서 분포가 드러나야 한다. 반면에 그림 3의 경우 정규분포가 익숙한 사람들에게는 그 경향이 보인다. 하지만 결과를 판단하는 사람 입장에서 볼 때 x의 분포가 들쑥날쑥 하기 때문에 수많은 정규분포가 겹쳐있다고 생각하거나 그냥 노이즈라고 생각 하더라도 확실하게 부정할 수 없다. 그 이유는 표본의 크기가 작은 이유도 있겠지만 히스토그램을 그린 사람이 구간의 크기를 적절하게 설정하지 못하였기 때문이기도 하다. 우리가 히스토그램을 그리는 이유는 누구나 직관적으로 그 분포의 경향을 파악 할 수 있도록 하기 위함이다. 표본의 크기가 충분히 크다면 그림을 어떻게 그려도 상관이 없겠지만 현실에서는 표본 추출에 제한사항이 많기 때문에 이를 인지하고 정보전달을 확실히 하도록 노력해야 한다.

용어

ROOT 히스토그램을 설명하기 위한 용어를 소개한다.

  • 빈, Bin: 히스토그램의 한 구간.
  • Bin Content: 빈에 들어있는 값. 빈에 들어가는 값이 정수가 아닌 경우도 있기때문에 '빈도수'는 정확하지 않은 설명이다.
  • Statistics Box: 히스토그램 통계 수치를 나타내는 창. 위 그림들에서 오른, 위쪽에 위치하는 상자를 말한다. 위치와 내용은 변경할 수 있다. 일반적으로 히스토그램의 이름, Entries, Mean, Std Dev 가 표시된다. 줄여서 Stats로 표시한다.
  • 엔트리, Entry: 변수 입력. 히스토그램에 입력한 총 입력 개수를 total entries 라고 한다. statistics 상자에 볼 수 있는 Entries가 이에 해당한다.
  • 이름, Name: 위 그림에는 볼 수 없지만 히스토그램은 고유한 이름을 가지고 있다. 같은 프로그램 안에서 서로 다른 히스토그램은 이름으로 구분하기 때문에 같은 이름을 사용하지 않도록 하자. 같은 이름을 사용할 경우 이미 사용하고 있던 히스토그램의 정보가 없어지는 일이 발생한다. 일반적으로 Statistics box의 맨 위에 표시된다.
  • 타이틀, Title: 타이틀은 히스토그램의 간단한 설명으로 볼 수 있다. 없어도 상관없으며 일반적으로 히스토그램 그림 위에 표시된다.

댓글

댓글 본문
작성자
비밀번호
버전 관리
ejungwoo
현재 버전
선택 버전
graphittie 자세히 보기