Machine learning 1

 

 

 

외계인이 ‘인류가 만든 시각화 도구 중에서
가장 위대한 것이 무엇이냐’고 묻는다면
저는 ‘두 가지를 대답해도 되겠냐’고 묻겠습니다.

그래도 된다고 하면 이렇게 대답할 것입니다.

  1. 좌표평면


하나만 이야기하라고 윽박지른다면,
저는 이렇게 대답할 것입니다. 

회계사들이 만든 표는 행과 열이라는
쇠창살 속에 데이터를 욱여넣는 극도로 억압적인 도구입니다.

하지만, 우리는 아무리 복잡한 데이터라도
일단 표 안에 속박시킬 수 있다면,
단정하게 정리 정돈할 수 있습니다.

뿐만 아니라, 엑셀이나 데이터베이스와 같은 도구에
표를 옮겨담으면 컴퓨터가 가진
엄청난 저장 용량과 처리 속도를 이용해서
강력한 표 로봇을 만들 수 있습니다.


여기에 머신러닝을 투입한다면
인간만이 지닐 수 있다고 여겨졌던 통찰력을
기계도 발휘할 수 있게 됩니다.

그렇기 때문에 데이터 산업에 입문하려면
표에 대해서 이해하는 것이 중요합니다.
표는 이렇게 생겼습니다.

가로를 ‘행’이라고 하고, 세로를 ‘열’이라고 합니다.
중요한 내용이니 헷갈리지 마세요.

행과 열이 표의 기본 구조입니다.
여기에 데이터를 넣어봅시다.

두 가지 방법으로 표를 만들 수 있습니다.
둘 다 맞습니다.

하지만, 데이터 산업에서는 오른쪽처럼 하지 않습니다.
왼쪽처럼 입력하자고 약속을 했으니 헷갈리지 마세요!

이제 표에 대해서 조금 더 자세히 살펴봅시다.

표는 데이터들의 모임입니다.

그래서 표를 데이터 셋(data set)이라고도 부릅니다.
데이터 셋이라고 누가 말하면 아 표를 이야기하는구나.
이렇게 생각하시면 됩니다.

데이터 셋을 잘 살펴보면 각각의 행은
각각의 ‘하루’를 나타냅니다.
열은 ‘그 하루의 특징’을 나타냅니다.


그래서 데이터 산업에서는 행과 열이라는 표현 대신
조금 어려운 표현을 사용합니다.

o 행(row)

  • 개체(instance)
  • 관측치(observed value)
  • 기록(record)
  • 사례(example)
  • 경우(case)

o 열(column)

  • 특성(feature)
  • 속성(attribute)
  • 변수(variable)
  • field

위와 같이 동일한 대상을 가리키는
여러 가지 표현이 있습니다.

현업에서는 맥락에 따라서 이런 표현들을
섞어서 사용합니다.

데이터 분야가 어렵게 느껴지는 이유 중의 하나입니다.
위의 표를 자세히 보면, 개체를 행에 적고,
그 개체의 특성을 열로 구분하고 있습니다.

이것을 이해하는 것이 데이터 분야에 입문하는
가장 중요한 출발이라고 할 수 있습니다.

이제 여러분은 안들리던 것이 들리고,
안 보이던 것이 보이기 시작할 것입니다.

귀가 깨끗해지고, 눈이 밝아진 것을
축하합니다.

중요한 출발점에 서신 것입니다.

댓글

댓글 본문
버전 관리
egoing
현재 버전
선택 버전
graphittie 자세히 보기