데이터 스크랩(Data scraping)

작업환경 설정하기( vagrant (virtualbox+ssh) )

docker로 안될시에 이전 방식인 vagrant를 이용하면 됩니다.

vagrant는 virtualbox 와 ssh 접속을 자동으로 설정해주는 도구입니다.

참고 : http://datasciencetoolbox.org/ (같은 저자의 vagrant 버전 사이트입니다.)

 

1. vagrant 와 virtualbox 를 각각 설치합니다.

https://www.vagrantup.com/

https://www.virtualbox.org/ 

 

2. bash 쉘

윈도에서는 bash쉘이 있으면 편리한데, git을 설치하신분들은 git-bash를 사용하셔도 되고,
 아니면 별도의 putty 라는 프로그램을 사용하셔도 됩니다.

 

3. 초기화

적당한 이름의 폴더를 만들고, vagrant 를 초기화시켜줍니다.

mkdir MyDataScienceToolbox
cd MyDataScienceToolbox

폴더 초기화

vagrant init data-science-toolbox/dst

 

4. 실행
vagrant up

처음실행시에, 3gb 짜리 virtualbox image를 다운받게 됩니다. 
다운로드 후에, virtualbox 폴더를 보시면 image가 들어가있는것을 확인할수 있습니다.
up 명령 후에는 virtualbox 상에서 image가 running 상태입니다.

(다운로드후에 실행상태가 아니면 vagrant up 명령을 한번더 입력해주시면 됩니다.)

 

접속

vagrant ssh

ssh 접속으로 가상머신에 접속합니다.

 

5. 종료

종료시에는 exit 명령으로 ssh 를 먼저 빠져나오고,

vagrant halt

위 명령을 실행 해줘야 virtualbox 상에서 실행중인 image가 종료됩니다. 종료를 안하고 pc를 종료할 경우에 다음번 실행시에 문제가 발생할수도 있습니다.

 

에러발생시, ssh 직접 접속.

종료시에 깜빡하거나 하면, 이후에 vagrant up 명령이 에러가 나면서 실행이 안될수가 있습니다.
이때는 ssh 명령으로 직접 접속할수 있습니다.

먼저, virtualbox 로 가서, 해당이미지를 headless 모드로 부팅합니다.

그다음 bash 쉘에서 아래 ssh 접속명령을 실행합니다.
ssh -p 2222 vagrant@127.0.0.1
(초기 암호는 vagrant 입니다.)

수동으로 접속했을경우, 공유폴더가 설정이 안된상태입니다. 직접설정해줘야 합니다.
sudo mount -t vboxsf vagrant /vagrant
vagrant 라는 "공유폴더명"을 가상머신내 /vagrant 폴더와 연결시키라는 명령입니다.
"공유폴더명"은 virtualbox 설정에서 정해진대로 넣어줘야 합니다.

 

댓글

댓글 본문
버전 관리
nomadlife
현재 버전
선택 버전
graphittie 자세히 보기