지도학습은 크게 ‘회귀’와 ‘분류’로 나뉩니다.
회귀는 영어로 Regression이고, 분류는 Classification입니다.
와!! 말이 정말 어렵죠.
걱정 마세요.
알고 보면 하나도 안 어렵습니다.
그전에 아래 그림을 5분간 바라봅시다.
회귀 Regression
예측하고 싶은 종속변수가 숫자일 때
보통 회귀라는 머신러닝의 방법을 사용합니다.
레모네이드 예제가 바로 회귀를 이용한 것입니다.
그림을 다시 가져와봤습니다.
우리가 예측하고 싶은 1월 8일의 판매량은
어떤 형태의 데이터인가요?
숫자입니다.
숫자를 예측하고 싶다면 무엇을 써야 한다고요?
회귀, 영어로 Regression입니다.
앞으로 어떤 문제를 만났는데
그 문제에서 예측하고 싶은 결과가 숫자라면
이렇게 하면 됩니다.
- 전문가에게는 ‘지도학습의 회귀로 해결해주세요.’ 라고 요청하면 됩니다.
- 공부를 하려면 ‘지도학습 회귀’로 검색하면 됩니다.
- 직접 해결하려면 ‘지도학습 회귀’라는 이름의 도구를 찾으면 됩니다.
이름을 안다는 것이 이렇게 중요한 일입니다.
회귀라는 이름을 알게 된 것을 축하합니다.
진도를 더 나가기 전에 회귀의 여러 사례들을
천천히 구경해봅시다.
독립변수 | 종속변수 | 학습시킬 데이터를 만드는 방법 |
---|---|---|
공부시간 | 시험점수 (10점, 20점) |
사람들의 공부시간을 입력받고 점수를 확인한다. |
온도 | 레모네이드 판매량 |
온도와 그날의 판매량을 기록한다. |
역세권, 조망 등 |
집 값 | 집과 역까지의 거리, 수치화된 조망의 평점 등을 집 값과 함께 기록한다 |
온실 기체량 |
기온 변화량 |
과거에 배출된 온실 기체량과 기온의 변화량을 기록한다. |
자동차 속도 |
충돌 시 사망 확률 |
충돌시 속도와 사상자를 기록한다. |
나이 | 키 | 학생들의 나이에 따른 키를 기록한다. |
- 이외에 회귀의 좋은 사례가 있다면 알려주세요.
https://bit.ly/ml1-regression-submit - 더 많은 사례가 궁금하다면 참고해주세요.
https://bit.ly/ml1-regression-list
분류 Classification
지도학습의 양대 산맥은 회귀와 분류입니다.
사실 여러분은 분류가 무엇인지 이미 알고 있습니다.
이전 예제에서 손톱을 깨무는 이미지들을 손톱이라는
이름으로 분류했던 것 기억나시죠?
그렇게 했더니 새로운 이미지가 나타났을 때
그것이 손톱인지, 정상인지를 분류할 수 있었습니다.
이것은 과거의 데이터를 통해서 배운다는 점에서
지도학습입니다.
그런데 결과가 숫자가 아니라
손톱, 정상과 같은 이름이네요.
이럴 때는 회귀를 사용하지 않습니다.
분류라는 방법을 이용해야 합니다.
앞으로 여러분이 어떤 문제를 만났는데
그 문제에서 추측하고 싶은 결과가
이름 혹은 문자라면 이렇게 하면 됩니다.
- 전문가에게는 '지도학습의 분류로 해결해주세요.' 라고 요청하면 됩니다.
- 공부를 하려면 '지도학습 분류'로 검색하면 됩니다.
- 직접 해결하려면 '지도학습 분류'라는 이름의 도구를 찾으면 됩니다.
분류라는 이름을 알게 된 것을 축하합니다.
진도를 더 나가기 전에 분류의 여러 사례들을
천천히 구경해봅시다.
독립변수 | 종속변수 | 학습시킬 데이터를 만드는 방법 |
---|---|---|
공부시간 | 합격 여부 (합격/불합격) |
사람들의 공부시간을 입력받고, 최종 합격여부를 확인한다. |
X-ray 사진과 영상 속 종양의 크기, 두께 |
악성 종양 여부 (양성/음성) |
의학적으로 양성과 음성이 확인된 사진과 영상 데이터를 모은다. |
품종, 산도, 당도, 지역, 연도 |
와인의 등급 |
소믈리에를 통해서 등급이 확인된 와인을 가지고 품종, 산도 등의 독립변수를 정하고 기록한다. |
키, 몸무게, 시력, 지병 |
현역, 공익, 면제 |
키, 몸무게, 시력, 지병 등을 토대로 현역, 공익, 면제인지를 확인한다. |
메일 발신인, 제목, 본문 내용 (사용된 단어, 이모티콘 등) |
스팸 메일 여부 |
이제까지 받은 메일을 모으고, 이들을 스팸 메일과 일반 메일로 구분한다. |
고기의 지방함량, 지방색, 성숙도, 육색 |
소고기 등급 |
소고기의 정보를 토대로 등급을 측정한다. |
- 이외에 분류의 좋은 사례가 있다면 알려주세요.
https://bit.ly/ml1-class-submit - 더 많은 사례가 궁금하다면 참고해주세요.
https://bit.ly/ml1-class-list
이쯤에서 우리가 얼마나 유식해졌는지 변화를 느껴봅시다.
이제 여러분은 아래와 같은 설명을 이해할 수 있게 되었습니다.
와! 이렇게 어려운 대화에 참여할 수 있게 되었다는 것이
너무 기특하지 않나요?
분류와 회귀만으로도 정말 많은 일을 해결할 수 있습니다.
엄청난 변화를 겪으신 겁니다.
자 축하합시다! 라고 말할 줄 알았죠?
기왕 여기까지 왔는데 조금만 더 알고 갑시다.
이제 하산만 하면 됩니다.
양적 데이터와 범주형 데이터
산업에서는 숫자라는 다소 모호한 표현 대신에
‘양적’이라는 말을 많이 사용합니다.
즉, 얼마나 큰지, 얼마나 많은지,
어느 정도인지를 의미하는 데이터라는 뜻에서
‘양적(量的, Quantitative)'이라고 합니다.
누가 여러분에게 양적 데이터라고 말했다면
숫자라고 알아들으면 됩니다.
또 산업에서는 ‘이름'이라는 표현 대신에
‘범주(範疇, Categorical)'라는 말을 씁니다.
대답해보세요.
아래의 데이터들은 양적 데이터인가요?
범주형 데이터인가요?
면적(평) | 온도 (섭씨) | 판매량 (개) |
---|---|---|
1000 | 10 | 100 |
200 | 28 | 200 |
300 | 31 | 300 |
양적 데이터입니다.
종속변수가 양적 데이터라면 회귀를 사용하면 됩니다.
아래의 데이터들은 양적 데이터인가요?
범주형 데이터인가요?
계절 | 날씨 | 휴가지 |
---|---|---|
봄 | 비 | 바다 |
여름 | 흐림 | 산 |
산 | 맑음 | 강 |
범주형 데이터입니다.
종속변수가 범주형 데이터라면 분류를 사용하면 됩니다.
우리가 알게 된 것을 정리해봅시다.
- 지도학습
- 회귀, 분류
- 양적, 범주형
이런 분별을 갖게 되었다는 것은
정말 혁명적인 사건입니다.
머신러닝의 회귀로 해결할 수 있는 문제에
직면한 3명을 상상해봅시다.
- A : 머신러닝을 모르는 사람
- B : 머신러닝은 알지만 회귀는 모르는 사람
- C : 머신러닝도 알고 회귀도 아는 사람
셋 다 머신러닝 엔지니어가 아니라고 하더라도,
A보다는 B가, B보다는 C가 훨씬 유능합니다.
유능해지신 것을 축하합니다.