확률론에서 가장 중요한 개념 중 하나입니다. 기존의 확률을 보는 관점을 바꾼 새로운 관점이죠. 확률을
"지식 또는 믿음의 정도로 나타내는 정도"
로 바라보고, 확률에 주관적인 척도를 개입한 것이죠. 하지만, 머신러닝에서 다루는 베이지언 확률은 객관적 베이지언 확률로 이러한 관점과는 조금 거리가 멉니다. 위의 얘기가 궁금하시면 따로 찾아보시길 바랍니다. 여기서는 머신러닝에서 다루는 베이지언 확률을 알려드리는 데에 초점을 맞추겠습니다.
Bayesian Probability
Product Rule을 이용해서 이렇게 쉽게 도출할 수 있습니다. 근데 핵심은 도출하는 과정이 아니라, 이게 이 수식이 어떤 의미를 가지는가입니다. 이 수식의 의미를 이해하기 위해, 재미있는 예시를 들어볼게요!
<예시>당신은 한 고등학교의 교장 선생님입니다. 이 학교에 입학하려면 시험을 쳐야하는데, 이 시험은 제법 어려워서, 전체 합격률이 50%밖에 안되는 고난이도의 시험입니다. 중학교 사교육의 힘을 확인해보고자, 당신은 애들이 중학교 때 학원을 다니면 합격률이 높아지는지 확인해보고 싶습니다.
당신은 고등학교 교장 선생이라, 자신의 학교 안에 들어온 학생들 밖에 조사할 수 없어, 확인을 해보았더니, 합격을 한 학생 중 60%나 학원을 경험해보았습니다.
그렇다면, 중학교 때 학원을 다닌다면, 이 학교에 들어올 확률이 높아지는 걸까요? 즉 합격할 확률이 50%가 넘을 거라고 생각되시나요?
그렇게 생각된다면, 이것이 확률이 사람들에게 주는 혼란입니다. 확률 식으로 나타내면 다음과 같습니다.
학원을 다닌다면, 시험에 합격할 확률 = p(X= pass | Y= academy)
즉 우리가 알고 있는 확률은
이 두 가지 입니다. 그래서 이제 시교육청에 자료를 받아와서, 중학교 때 학원을 다녀본 경험이 있을 확률을 받아 보았더니, 80% 학생이 경험해보았다고 합니다.
이제 제대로 확인을 해보니, 학원다닌 아이가 합격할 확률은 37.5% 채 되지 않았다는 사실이 밝혀졌습니다.
베이지언확률은 사전확률(prior) 과 가능성(likelihood)를 통해, 우리가 알고자 하는 사후확률(posterior)을 구하는 과정입니다. 많은 상황 속에서 우리는 구하고 싶은 확률을 구하기 어려운 상황들이 많습니다. 베이지언 확률은 구할 수 없는 상황 속에서, 기존의 알고 있던 확률의 조합으로 원하는 확률을 도출하는 데에 사용됩니다.
즉 위의 상황 속에서는 우리가 측정가능한 확률은 이 시험의 합격률과, 합격한 학생 중 학원을 다닌 학생의 비율 뿐이었습니다. 이 두 조합으로 우리는 학생들이 학원을 다녔을 때 합격할 확률을 도출해낼 수 있었습니다.
이제 이것이 어떻게 쓰이는가를 다음 장에서 보여드리겠습니다.