데이터 스크랩(Data scraping)

웹페이지 불러오기(cURL)

먼저 관심있는 자료가 있는 웹사이트를 정하고,
 ( 테스트는 프로젝트 오일러사이트의 문제리스트 https://projecteuler.net/archives 로 진행하겠습니다 )

1. 수동으로 "다른이름으로 저장"을 해도 되고,

2. 명령어를 써서 파일로 저장합니다.

curl -s 'https://projecteuler.net/archives' > test.html

해당페이지를 test.html 이라는 파일로 저장하라는 명령입니다.

나중에 script로 자동화하려면, curl 명령을 쓰면 좋지만, 로그인이나, 로그인시 자동로그인을 방지하는 캡챠등으로 인해서, 모든 사이트에서 curl을 사용하기는 힘들수 있습니다.

 

확인하기

제대로 불러왔는지 확인하려면

< test.html

"<" 표시는 파일을 불러오는 명령입니다.

cat test.html

이라고 입력하고, html 소스코드가 출력이 되면 제대로 된겁니다.

 

내용이 많아서 일부만 출력하고 싶으면,

< test.html head

 파일을 불러오고, head 명령을 붙여주게 되면, 앞부분(기본 10줄)만 보여줍니다.

줄수를 정해주고 싶으면,

< test.html head -n 10

또는

head -n 10 test.html

또는

cat test.html | head -n 10

이라고 입력해주면 됩니다. 두가지 이상의 명령어를 연결해서 실행할경우엔 파이프(|)로 연결해주면, 앞쪽 명령의 결과물이 그다음 명령의 입력으로 들어가서 연속으로 처리된 값을 얻을수 있습니다. 여러명령어를 계속 연결해서도 쓸수 있습니다.

 

뒷부분만 출력하려면

head 대신 tail 이라는 명령어를 쓰면 됩니다.

< test.html tail -n 15

 

댓글

댓글 본문