한 페이지 머신러닝

확률&우도

 

[확률&우도]

 

그림은

중고등학교 수학책에 자주 등장하는

항아리와 꺼내기 문제를 그려놓은 것임

멀쩡한 항아리에다 공을 괜히 넣었다 빼었다 하던 삽질을

다들 지긋지긋해서 기억이 것임

 

C_1 1 항아리고 파랗게 해놨음

C_2 2 항아리고 연초록으로 해놨음

그림을 보시면

C_1 항아리에는 파랑공이 2, 초록공이 1 들었음

C_2 항아리에는 파랑공이 0, 초록공이 2 들었음

 

P(C_1) C_1 항아리를 고를 확률을 표현해놓은 것임

P(C_2) C_2 항아리를 고를 확률을 표현해놓은 것임

항아리는 두개 있으니까

탈이 없으면 둘중에 하나 고르는 거겠지

그러면 P(C_1)= ½ 이고

P(C_2)=½

 

P(x) 이것은

항아리고 나발이고 모르겠고

그냥 x공을 집어들 확률을 말하는 것임

공이 전부 다섯개인데

파란공 둘에 초록공 셋이 있으니까

P(파랑) = ⅖

P(초록) = ⅗

 

P(x | C_i)

표기는 어떻게 읽는 것이냐면

'C_i 항아리라는 것이 정해졌을 x 확률'

말함. i 1 되고 2 .

 

예컨대 수학의 정석을 보면

'C_1 항아리에서 파랑공을 꺼낼 확률은?'[3]

이래갖고 물어보는것임

그림에서 파란 부분(C_1) 보자는 것인데

C_1에는 공이 전부 3 들었음

그래서

P(x=파랑 | C_1) = ⅔

P(x=초록 | C_1) = ⅓

 

원래 고등학교 책에서는

항아리에다 공을 넣어놓은 다음에

항아리는 냅두고 공을 들었다 놨다 하는 것이었음

그것을 확률(probability) 이라고

어느 공이 손에 잡히나 보자

하는것

 

근데 여기서 반전이 등장함

머신러닝은

데이터를 손에 들었다는 것을 전제로

구분하는 문제를 푸는 거라고 그랬음

 

말이냐면

인제는 공을 냅두고 항아리를 들었다 놨다 한다는 말임

그것을 우도(likelihood)라고 말함

우도 라는 것은 쉬운 말로

'뭐가 제일 그럴싸함?' 하는 말임

 

들어봄

파란 공을 손에 쥐었다는 사실을 전제로 냅두고

'파란놈이 어느 항아리 출신이라고 말하는게 그럴싸함?'

하는것임

파란놈은 C_1 항아리에밖에 들었으니까

나의 손에 일단 파란 공이 들려 있다면

이것은 무조건 C_1에서 나온 놈이라고 말할 수가 있음

그래서 P(C_1|x=blue) = 1이고

P(C_2|x=blue) = 0

 

정리 하자면

확률은 항아리를 냅두고 공을 들었다 놨다 하는거고

우도는 공을 냅두고 항아리를 들었다 놨다 하는것임

P(x | C_i) 이게 확률이고

P(C_i | x) 이게 우도임

 

같은 현상을 두고서

맞은 놈은 피해자 라고 부르고

때린 놈은 가해자 라고 부르는 것임

확률과 우도는 그래서 서로 반대말임

 

그림에서 공이 5개가 있는데

각각 (1), (2), (3), (4), (5) 이렇게 번호를 매겨놓았음

 

근데 두껍게 써진 x하고 얇게 써진 x하고는 다른 것임

두꺼운 x 벡터를 표기할 사용함

얇은 x 그냥 숫자 하나를 표기할 사용함

벡터라는 것은 뭐냐면

 

(1) = (색깔:파랑, 크기:1mm, :없음, 모양:동글..., )

(3) = (색깔:초록, 크기:1mm, :없음, 모양:동글..., )

 

이렇게 하나의 공을 두고서

서로 다른 여러가지특징을 말해줄 사용함

 

얇은 x

색깔이 어떤 ''인지

크기가 어떤 ''인지

맛이 어떤 ''인지

이렇게 특징 하나가 어떤 ''인가를 말해줄 사용함

 

손에 데이터가

특징이 뭐뭐뭐가 있는지를 알아야

착한놈 나쁜놈을 하고 구분을 아님

그래서 구분하는 일을 때는

특징을 파악하는게 중요함

 

그래서 머신러닝 이게 하는 거냐면

데이터를 손에 쥐었다고 전제로 하고

근데 손에 들고있는 데이터가

어느 집안 출신인지를 알아맞춰보길

하는 것임

고양이 집안(C_1)인지, 아니면 멍멍이 집안(C_2)인지

 

컴퓨터는 이런 식으로

사진 데이터를 보고서

냥이 사진하고 멍멍이 사진을 구분하게

댓글

댓글 본문
  1. Woneui Hong
    neural network는 계산 결과로 우도 (likelihood)를 내놓습니다 :).
    우도란 '가장 그럼직한 정도' 이라고 이해하시면 좋습니다.
    동물 사진을 하나 input으로 집어넣고서
    그 사진이 '가장 개 같은 정도'와
    그 사진이 '가장 고양이 같은 정도'와
    그 사진이 '가장 쥐 같은 정도'와
    등등

    여러 '정도' 들을 내놓고 그중에 가장 큰 숫자를 최종 결과로 봅니다.
    대화보기
    • 혹시 이런게 neural network에 어떻게 적용되는지 알 수 있을까요?
    • LuCKy
      좋은 설명입니다.