[확률분포]
확률분포 (probability distribution)라는 말을
들어보셨나 모르겠음
이것이 대체 무엇인가
를 읊어봄
확률은 단적으로 말해서
항아리에서 공 꺼내기 하는것임
‘항아리에 빨간공 2개 파란공 3개가 들었으면
손을 넣어서 하나 집었을 때 파란공일 확률은?’[2점] 하는것
한자를 풀이해보면
‘확신하는 비율(정도)’ 이라서 확률 임
어원을 찾아보시면 사실 별거 없는데
"quality of being probable,"
https://www.etymonline.com/word/probability
이라는 뜻임. ‘그럼직한 정도' 라는 뜻
그러면 분포 라는 것은 무엇임
나눌 분에 퍼뜨린다 할때 포 자를 사용함
나눠갖고 퍼뜨린다는 말씀임
확률 분포를 이미지 메이킹 해 보면
항아리에 들어있는 공 말고
해변에 널려있는 모래가루를 떠올리셔도 좋을듯
항아리=해변
공 = 모래
임
항아리에서 공을 뽑는 것과 아주 같은 식으로
해변에서도 모래를 뽑을 수가 있음
근데 이번에는 항아리처럼 만만하지가 않은데
왜냐면 모래는 크기가 매우 작으므로
해변에서 모래알 하나 집어드는 행동이 별 의미가 없기 떄문임
자고로 모래는
바께스로 푹 퍼다가 사용하는 것임
그래서 똑같은 상황을 묘사하는 수학적인 표현이라도
큼직큼직한 세상을 묘사할 때랑
세밀세밀한 세상을 묘사하는 수학은 다른 것임
그런 상황에서
확률분포 라는 말을 사용함
모래분포 라고 불러도 됨
항아리 안의 공의 색깔을 알고자 하면
손을 한두번 집어넣어서 공을 한두개 집으면 되는 일이었음
그러나 드넓은 해변에 널브러진
모래의 재질을 알고자 하면
여기서 한 톨
저기서 한 톨
요기서 한 톨
저어기 멀리서 한 톨
이렇게 표본을 뽑아서
알갱이 상태를 보는 것임
왜 한군데서 안 뽑고 여기저기서 뽑냐면
만약에 해변의 어느 한 지역에
재수없게 개똥이 있었을떄
개똥묻은 모래를 하나 뽑아놓고
모래재질=개똥 이렇게 단정지어버리는
위험의 수가 있기 때문임
그런 위험을 방지하려고
여기서 한 톨
저기서 한 톨
이렇게 분산해서 뽑음
이것을 샘플링 혹은 표본추출 이라고 함
세간에 알려진 해변의 종류는 여러가지가 있는데
가장 유명한 해변은 정규분포
혹은 Gaussian distribution 이라는 이름의 해변(=distribution)임
저 해변 말고
다른 해변도 가지가지 있음
동해안 해변이랑
제주도 해변이랑 특색이 다르듯
distribution이라고 이름 붙은 거마다
전부 다 다른 특색이 있는데
해변이라는 점에서는 다 같음
자 이제 해변에서
모래알을 뽑아봄
가장 유명한 정규해변(normal distribution)에서
모래를 뽑아보겠음
정규분포는
모래를 종 모양으로 수북하게 부어놓은 모양의
해변이라고 보시면 되겠음
가운데가 수북 하므로
눈감고 모래를 띡 뽑으면
저 그림에서 가운데 있던 모래가 대체로 손에 잡힘
뭔 말이냐면
해변이 좌우로 넓은데
모래는 가운데 몰려서 들어있다는 뜻임
좌우 양 극단에는
모래보다는 아스팔트 바닥이라고 보시면 될듯
거기다가는 손을 넣어도 모래가 잘 안잡힘
우리는 항아리-공 모델이 좀더 일반화된
해변-모래 모델을 살펴보는 중임
평균은 뮤(mu)라고 읽는 그리스 문자로 표기를 함
분산은 시그마(sigma)라고 읽는 그리스 문자로 표기를 함
공식이 매우 힘겹게 생겼는데
저게 왜 저런 형태인지를 유도하는 것은
더욱 힘겨움.
참고를 하길
https://www.quora.com/How-did-humans-derive-the-normal-distribution
근데 저게 왜 유명하냐면
이런저런 수학적 변형이 매우 쉬운 축에 드는
해변이기 때문임
잘 생각해 보면
모래알 쪼가리 몇개를 가지고
전체 해변의 모양을 때려맞추겠다는 것은
인간의 큰 욕심이 아닐 수 없음
정규분포란
그런 욕심을 (수학적으로는 쉽게) 만족시켜주는 모양새임
그래서 해변의 모양을 보자면
학교에서 평균성적을 받아봤다면
평균은 뭔 말인지 알기 쉬울 것이고
분산이 뭔 말인가를 추가로 읊어봄
분산(variance)이라는 것은
모래알이 평균으로부터
얼마나 떨어져서 들어있는 것인가를 알려주는 지표임
정규해변에서는
해변의 평균과 분산만 알면
해변의 전체 모양이 어찌 생겼는지 어림짐작을 할 수가 있음
정규분포(=정규해변)는
평균과 분산이 다르면 다른 모양이 되는데
예컨대 파란색 해변은
빨간색 해변과 평균이 같음
근데 파란색 해변은
가운데가 길쭉 솟았으므로
빨간 해변보다
분산(=평균으로부터 흩어진 정도)이 낮음
초록 해변은 평균이 왼쪽으로 몰려있음
이렇게 정규 해변의 여러가지 모양을 만들어 볼 수가 있음
그러면 이게 머신러닝하는데 다 무슨 소용인가 물어볼 수가 있음
머신러닝이라는게 뭐라고 했었느냐면
머신한테 모래알(=데이터)을 몇개 던져주고서
‘이 모래알들이 들어있었음직한 가장 그럴듯한 해변을 만들어 내어라’
라고 등을 떠미는 것임
그렇게 해서 인공적으로 해변을 조성하고 나면
그 다음에는 새로운 모래알(=데이터) A를 던져줬을 때
아까 인공적으로 만들어놓은 그 해변에서
A가 나옴직한 구역을 판단해 답을 낼 수가 있음
새로운 데이터 A가 아마도 해변의 왼쪽에서 나온 놈일지
오른쪽에서 나온 놈일지를
구분할 수가 있게된다는 뜻임
물론 확률적으로 구분을 하므로
매번 다 맞추겠다는게 아니고
높은 확률로 맞추겠다는 뜻임