[확률&우도]
이 그림은
중고등학교 수학책에 자주 등장하는
항아리와 공 꺼내기 문제를 그려놓은 것임
멀쩡한 항아리에다 공을 괜히 넣었다 빼었다 하던 삽질을
다들 지긋지긋해서 기억이 날 것임
C_1은 1번 항아리고 파랗게 해놨음
C_2은 2번 항아리고 연초록으로 해놨음
그림을 보시면
C_1 항아리에는 파랑공이 2개, 초록공이 1개 들었음
C_2 항아리에는 파랑공이 0개, 초록공이 2개 들었음
P(C_1) 은 C_1 항아리를 고를 확률을 표현해놓은 것임
P(C_2) 은 C_2 항아리를 고를 확률을 표현해놓은 것임
항아리는 두개 있으니까
별 탈이 없으면 둘중에 하나 고르는 거겠지
그러면 P(C_1)= ½ 이고
P(C_2)=½ 임
P(x) 이것은
항아리고 나발이고 모르겠고
그냥 x공을 집어들 확률을 말하는 것임
공이 전부 다섯개인데
파란공 둘에 초록공 셋이 있으니까
P(파랑) = ⅖
P(초록) = ⅗ 임
P(x | C_i)
이 표기는 어떻게 읽는 것이냐면
'C_i 항아리라는 것이 정해졌을 때 x일 확률'
을 말함. i는 1도 되고 2도 됨.
예컨대 수학의 정석을 보면
'C_1 항아리에서 파랑공을 꺼낼 확률은?'[3점]
이래갖고 물어보는것임
그림에서 파란 부분(C_1)만 보자는 것인데
C_1에는 공이 전부 3개 들었음
그래서
P(x=파랑 | C_1) = ⅔ 임
P(x=초록 | C_1) = ⅓ 임
원래 고등학교 책에서는
항아리에다 공을 잘 넣어놓은 다음에
항아리는 냅두고 공을 들었다 놨다 하는 것이었음
그것을 확률(probability) 이라고 함
어느 공이 손에 잡히나 보자
하는것
근데 여기서 반전이 등장함
머신러닝은
데이터를 손에 들었다는 것을 전제로
구분하는 문제를 푸는 거라고 그랬음
뭔 말이냐면
인제는 공을 냅두고 항아리를 들었다 놨다 한다는 말임
그것을 우도(likelihood)라고 말함
우도 라는 것은 쉬운 말로
'뭐가 제일 그럴싸함?' 하는 말임
예 를 들어봄
파란 공을 손에 쥐었다는 사실을 전제로 냅두고
'파란놈이 어느 항아리 출신이라고 말하는게 그럴싸함?'
하는것임
파란놈은 C_1 항아리에밖에 안 들었으니까
나의 손에 일단 파란 공이 들려 있다면
이것은 무조건 C_1에서 나온 놈이라고 말할 수가 있음
그래서 P(C_1|x=blue) = 1이고
P(C_2|x=blue) = 0임
정리 를 하자면
확률은 항아리를 냅두고 공을 들었다 놨다 하는거고
우도는 공을 냅두고 항아리를 들었다 놨다 하는것임
P(x | C_i) 이게 확률이고
P(C_i | x) 이게 우도임
같은 현상을 두고서
맞은 놈은 피해자 라고 부르고
때린 놈은 가해자 라고 부르는 것임
확률과 우도는 그래서 서로 반대말임
그림에서 공이 5개가 있는데
각각 (1), (2), (3), (4), (5) 이렇게 번호를 매겨놓았음
근데 두껍게 써진 x하고 얇게 써진 x하고는 다른 것임
두꺼운 x는 벡터를 표기할 때 사용함
얇은 x는 그냥 숫자 하나를 표기할 때 사용함
벡터라는 것은 뭐냐면
공(1) = (색깔:파랑, 크기:1mm, 맛:없음, 모양:동글..., )
공(3) = (색깔:초록, 크기:1mm, 맛:없음, 모양:동글..., )
이렇게 하나의 공을 두고서
서로 다른 여러가지특징을 말해줄 때 사용함
얇은 x는
색깔이 어떤 '값'인지
크기가 어떤 '값'인지
맛이 어떤 '값'인지
…
이렇게 특징 하나가 어떤 '값'인가를 말해줄 때 사용함
손에 쥔 데이터가
특징이 뭐뭐뭐가 있는지를 알아야
착한놈 나쁜놈을 척 하고 구분을 할 것 아님
그래서 구분하는 일을 할 때는
특징을 잘 파악하는게 중요함
그래서 머신러닝 이게 뭐 하는 거냐면
데이터를 손에 쥐었다고 전제로 하고
근데 손에 들고있는 이 데이터가
어느 집안 출신인지를 알아맞춰보길
하는 것임
고양이 집안(C_1)인지, 아니면 멍멍이 집안(C_2)인지
컴퓨터는 이런 식으로
사진 데이터를 척 보고서
냥이 사진하고 멍멍이 사진을 구분하게 됨