새로운 시작을 축하합니다.
지금까지 여러 가지 아이디어를 구상해 보았는데요.
아이디어를 현실화하기 위해서는
데이터가 필요하다는 것이 느껴지시나요?
만약 여러분이 레모네이드 카페를 운영한다고 가정해봅시다.
오늘 몇 잔의 레모네이드가 팔릴지 예측하고 싶다면
무엇을 해야 할까요?
온도와 판매 개수와 같은 개념을 데이터로 표현해야 합니다.
데이터 자체는 현실이 아닙니다.
하지만, 현실을 데이터로 표현할 수만 있다면,
컴퓨터의 엄청난 힘으로 데이터를 처리할 수 있게 됩니다.
그 처리 방법 중의 하나가 머신러닝입니다.
그래서 머신러닝으로 무엇인가를 하려면
당연히 데이터가 필요합니다.
세상에는 무한히 많은 데이터가 있습니다.
작은 세포 하나도 그 세포의 움직임을 관찰하기 위해서는
수많은 데이터가 필요합니다.
그런데 우리가 살고 있는 세계는 우주입니다.
세포부터 은하까지 무수히 많은 존재들로 가득 차 있습니다.
이 모든 것들은 데이터로 표현될 수 있습니다.
우선 복잡한 현실에서 관심사만 뽑아서
단순한 데이터로 만들어야 합니다.
현실을 데이터화 할 수 있다면,
복잡한 현실에서 발견하기 어려운 통찰을
단순해진 데이터로부터 찾아낼 수 있을 것입니다.
이를 통해서 현실을 변화시키는 일을 하는 것이
‘데이터 산업’입니다.
‘데이터 산업’은 크게 데이터 과학(Science)과
데이터 공학(Engineering)으로 분리해볼 수 있습니다.
데이터 과학은 데이터를 만들고,
만들어진 데이터를 이용하는 일을 합니다.
책에 비유한다면 ‘작가’라고 할 수 있습니다.
데이터 공학은 데이터를 다루는 도구를 만들고,
도구를 관리하는 일을 합니다.
책에 비유한다면 종이와 연필을 만들고,
책을 잘 출판하고, 정리 정돈해서
도서관을 운영하는 것과 비슷합니다.
데이터 과학과 데이터 공학은
정신과 육체의 관계와 비슷합니다.
구분되는 것처럼 보이지만,
한쪽이 없으면 다른 한쪽이 존재할 수 없기 때문에
사실은 하나라고 할 수 있습니다.
지금 우리는 데이터 과학자,
데이터 공학자가 되기 위한
출발점에 서 있습니다.
기대되시죠?
출발합시다.