한 페이지 머신러닝

확률분포

[확률분포]

확률분포 (probability distribution)라는 말을

들어보셨나 모르겠음

이것이 대체 무엇인가

를 읊어봄
 

확률은 단적으로 말해서

항아리에서 공 꺼내기 하는것임

‘항아리에 빨간공 2개 파란공 3개가 들었으면

손을 넣어서 하나 집었을 때 파란공일 확률은?’[2점] 하는것
 

한자를 풀이해보면

‘확신하는 비율(정도)’ 이라서 확률 임

어원을 찾아보시면 사실 별거 없는데

"quality of being probable,"

https://www.etymonline.com/word/probability

이라는 뜻임. ‘그럼직한 정도' 라는 뜻
 

그러면 분포 라는 것은 무엇임

나눌 분에 퍼뜨린다 할때 포 자를 사용함

나눠갖고 퍼뜨린다는 말씀임
 

확률 분포를 이미지 메이킹 해 보면

항아리에 들어있는 공 말고

해변에 널려있는 모래가루를 떠올리셔도 좋을듯
 

항아리=해변

공 = 모래


 

항아리에서 공을 뽑는 것과 아주 같은 식으로

해변에서도 모래를 뽑을 수가 있음

근데 이번에는 항아리처럼 만만하지가 않은데

왜냐면 모래는 크기가 매우 작으므로

해변에서 모래알 하나 집어드는 행동이 별 의미가 없기 떄문임

자고로 모래는

바께스로 푹 퍼다가 사용하는 것임
 

그래서 똑같은 상황을 묘사하는 수학적인 표현이라도

큼직큼직한 세상을 묘사할 때랑

세밀세밀한 세상을 묘사하는 수학은 다른 것임
 

그런 상황에서

확률분포 라는 말을 사용함

모래분포 라고 불러도 됨
 

항아리 안의 공의 색깔을 알고자 하면

손을 한두번 집어넣어서 공을 한두개 집으면 되는 일이었음
 

그러나 드넓은 해변에 널브러진

모래의 재질을 알고자 하면

여기서 한 톨

저기서 한 톨

요기서 한 톨

저어기 멀리서 한 톨

이렇게 표본을 뽑아서

알갱이 상태를 보는 것임
 

왜 한군데서 안 뽑고 여기저기서 뽑냐면

만약에 해변의 어느 한 지역에

재수없게 개똥이 있었을떄

개똥묻은 모래를 하나 뽑아놓고

모래재질=개똥 이렇게 단정지어버리는

위험의 수가 있기 때문임

그런 위험을 방지하려고

여기서 한 톨

저기서 한 톨

이렇게 분산해서 뽑음

이것을 샘플링 혹은 표본추출 이라고 함
 

세간에 알려진 해변의 종류는 여러가지가 있는데

가장 유명한 해변은 정규분포

혹은 Gaussian distribution 이라는 이름의 해변(=distribution)임
 

저 해변 말고

다른 해변도 가지가지 있음

Poisson distribution

Beta distribution

Gamma distribution

Dirichlet distribution

F-distribution

Chi-squared distribution

Student's t distribution,

Exponential distribution

Multinomial distribution

Bernoulli distribution

Binomial distribution
 

동해안 해변이랑

제주도 해변이랑 특색이 다르듯

distribution이라고 이름 붙은 거마다

전부 다 다른 특색이 있는데

해변이라는 점에서는 다 같음
 

자 이제 해변에서

모래알을 뽑아봄

가장 유명한 정규해변(normal distribution)에서

모래를 뽑아보겠음
 

정규분포는

모래를 종 모양으로 수북하게 부어놓은 모양의

해변이라고 보시면 되겠음
 

가운데가 수북 하므로

눈감고 모래를 띡 뽑으면

저 그림에서 가운데 있던 모래가 대체로 손에 잡힘

뭔 말이냐면

해변이 좌우로 넓은데

모래는 가운데 몰려서 들어있다는 뜻임

좌우 양 극단에는

모래보다는 아스팔트 바닥이라고 보시면 될듯

거기다가는 손을 넣어도 모래가 잘 안잡힘
 

우리는 항아리-공 모델이 좀더 일반화된

해변-모래 모델을 살펴보는 중임
 

평균은 뮤(mu)라고 읽는 그리스 문자로 표기를 함

분산은 시그마(sigma)라고 읽는 그리스 문자로 표기를 함
 

공식이 매우 힘겹게 생겼는데

저게 왜 저런 형태인지를 유도하는 것은

더욱 힘겨움.

참고를 하길

https://www.quora.com/How-did-humans-derive-the-normal-distribution
 

근데 저게 왜 유명하냐면

이런저런 수학적 변형이 매우 쉬운 축에 드는

해변이기 때문임

잘 생각해 보면

모래알 쪼가리 몇개를 가지고

전체 해변의 모양을 때려맞추겠다는 것은

인간의 큰 욕심이 아닐 수 없음

정규분포란

그런 욕심을 (수학적으로는 쉽게) 만족시켜주는 모양새임
 

그래서 해변의 모양을 보자면

학교에서 평균성적을 받아봤다면

평균은 뭔 말인지 알기 쉬울 것이고

분산이 뭔 말인가를 추가로 읊어봄
 

분산(variance)이라는 것은

모래알이 평균으로부터

얼마나 떨어져서 들어있는 것인가를 알려주는 지표임
 

정규해변에서는

해변의 평균과 분산만 알면

해변의 전체 모양이 어찌 생겼는지 어림짐작을 할 수가 있음
 

정규분포(=정규해변)는

평균과 분산이 다르면 다른 모양이 되는데

예컨대 파란색 해변은

빨간색 해변과 평균이 같음
 

근데 파란색 해변은

가운데가 길쭉 솟았으므로

빨간 해변보다

분산(=평균으로부터 흩어진 정도)이 낮음

초록 해변은 평균이 왼쪽으로 몰려있음

이렇게 정규 해변의 여러가지 모양을 만들어 볼 수가 있음
 

그러면 이게 머신러닝하는데 다 무슨 소용인가 물어볼 수가 있음

머신러닝이라는게 뭐라고 했었느냐면
 

머신한테 모래알(=데이터)을 몇개 던져주고서

‘이 모래알들이 들어있었음직한 가장 그럴듯한 해변을 만들어 내어라’

라고 등을 떠미는 것임

그렇게 해서 인공적으로 해변을 조성하고 나면
 

그 다음에는 새로운 모래알(=데이터) A를 던져줬을 때

아까 인공적으로 만들어놓은 그 해변에서

A가 나옴직한 구역을 판단해 답을 낼 수가 있음

새로운 데이터 A가 아마도 해변의 왼쪽에서 나온 놈일지

오른쪽에서 나온 놈일지를

구분할 수가 있게된다는 뜻임

물론 확률적으로 구분을 하므로

매번 다 맞추겠다는게 아니고

높은 확률로 맞추겠다는 뜻임

 

댓글

댓글 본문
graphittie 자세히 보기