머신러닝

사건간의 관계

토픽 머신러닝

가벼운 예시로 설명하려 합니다.

당신은 커피숍 사장님입니다. 고객의 포인트제도를 수정하고자 합니다. 가장 단순하게 고객을 어떤 성별의 사람이 어떤 제품 ( 커피 or 빙수 or 빵)를 소비할 것인지를 확인하려고 합니다.

확률 변수 X = 성별  , Y = 소비한 제품군

그렇다면 확률은 저런 표에다가 집어 넣을 수 있습니다. 그럼 몇 일간 개고생해서, 1000건의 고객 소비 패턴 자료를 구했습니다. 그러면, 이런 식으로 나타낼 수 있겠죠.

그럼 여기서 확률을 한번 구해봅시다. 고객 한명이 들어왔을 때, 그 고객이 남자면서 커피를 살 확률은 얼마일까요?

전체 1000건 200건이니, 확률은 20퍼일 것입니다. 이러한 확률을 나타낼 때, 확률론에서는

이런 식으로 나타냅니다. 

이번에는 다른 확률을 구해봅시다. 고객 한 명이 들어왔을 때, 그 고객이 남자일 확률은 얼마일까요? 

전체 1000건 중 400건이니, 확률을 40퍼일 것입니다. 우리는 어떻게 구했죠? 이 Sample Space에서는 (성별,소비한 제품군)의 쌍으로 보았습니다. 이 (성별, 소비한 제품군)의 자료를 통해, 성별로의 확률을 도출한 것입니다.

SUM Rule

Y(소비한 제품군) 전체 사건들의 확률 합을 통해, 우리는 X(성별)만의 확률을 도출할 수 있습니다. 이러한 확률의 규칙을 우리는 Sum rule이라고 합니다.

이제 다른 확률을 구해보겠습니다. 어떤 남자가 들어왔는데, 그 남자가 빵을 살 확률은 얼마일까요?

이전과는 성격이 다른 질문이 되었습니다. 이전까지는 전체 고객에서만 보았습니다. 그러니 그 확률의 Sample Space전체 고객의 성별소비할 제품군이었습니다.

하지만 여기서는 남자 고객에 한정지어 보았습니다. 즉 여기서의 

  Sample Space는 남자 고객소비할 제품군입니다. 

즉 이번에는 전체 사건 수을 1000 건으로 보는 것이 아닌,

전체 사건 수남자 전체 400건으로 바라보아야 합니다.

이렇게 보았을 경우, 남자가 빵을 살 확률은 400건 중 100건, 즉 25%확률이 나옵니다. 이런 식은 확률론에서는 

 

p( A | B ) 는 Sample Space를 사건 B로 한정지어 보겠다는 것을 의미합니다. 위의 경우는 남자라는 경우로 한정지어 보겠다는 것을 의미하구요. 

우리는 위의 확률을 이런 식으로 구한셈이 됩니다. 

Product Rule

여기서 도출한 Product Rule 은 다음 장의 bayesian Rule에서 쓰이는 핵심 법칙입니다.

  

이 식을 바라볼 때, 보통은 이런식으로 알려줍니다.

"고객이 남자일 때, 그 고객이 빵을 살 확률은?" or "고객이 남자라면, 그 고객이 빵을 살 확률은?" 

이러한 단순한 개념에서는 그다지 오해가 생기지 않습니다. 하지만 한국어의 특성 상 "~때", "~라면"은 시간의 순서 혹은 인과 관계를 의미하는 조사입니다. 이는 사건의 관계를 해석하는 데에 잘못된 관점을 제공합니다.

하지만, 꼭 사건간의 인과 관계나 시간의 순서가 존재하는 것 만은 아닙니다. 예를 들어 " 주사위가 3이상 나왔을 때, 주사위 눈금이 4일 확률은?" 이런 확률은 인과 관계라는 관점으로 볼 경우, 문제 해석에서 오해가 발생합니다. 

그렇기 때문에, 이러한 관점 대신 "Sample Space가 남자라는 조건 하에서"라는 관점으로 보아야, 나중에 복잡한 수식을 이해하는데 필요한 관점을 가지게 됩니다. 

기본 내용을 정말 오래 풀어썼네요. 꼭 이해하시길 바랍니다.

댓글

댓글 본문
  1. 오룡
    P(A|B)는 현재 고교과정에서 "조건부 확률(Conditional Probability)"이라 불리웁니다^^
    확률의 곱셈 법칙(multiplication rule of probability)은 두사건이 모두 발생할 확률에 대해 서로 영향을 미칠때(종속관계) P(A and B)=P(A) X P(B|A)=P(B) X P(A|B)로 계산되고 영향을 미치지 않을때(독립관계)에서는 P(A and B)=P(A) X P(B)로 계산합니다.