먼저 관심있는 자료가 있는 웹사이트를 정하고,
( 테스트는 프로젝트 오일러사이트의 문제리스트 https://projecteuler.net/archives 로 진행하겠습니다 )
1. 수동으로 "다른이름으로 저장"을 해도 되고,
2. 명령어를 써서 파일로 저장합니다.
curl -s 'https://projecteuler.net/archives' > test.html
해당페이지를 test.html 이라는 파일로 저장하라는 명령입니다.
나중에 script로 자동화하려면, curl 명령을 쓰면 좋지만, 로그인이나, 로그인시 자동로그인을 방지하는 캡챠등으로 인해서, 모든 사이트에서 curl을 사용하기는 힘들수 있습니다.
확인하기
제대로 불러왔는지 확인하려면
< test.html
"<" 표시는 파일을 불러오는 명령입니다.
cat test.html
이라고 입력하고, html 소스코드가 출력이 되면 제대로 된겁니다.
내용이 많아서 일부만 출력하고 싶으면,
< test.html head
파일을 불러오고, head 명령을 붙여주게 되면, 앞부분(기본 10줄)만 보여줍니다.
줄수를 정해주고 싶으면,
< test.html head -n 10
또는
head -n 10 test.html
또는
cat test.html | head -n 10
이라고 입력해주면 됩니다. 두가지 이상의 명령어를 연결해서 실행할경우엔 파이프(|)로 연결해주면, 앞쪽 명령의 결과물이 그다음 명령의 입력으로 들어가서 연속으로 처리된 값을 얻을수 있습니다. 여러명령어를 계속 연결해서도 쓸수 있습니다.
뒷부분만 출력하려면
head 대신 tail 이라는 명령어를 쓰면 됩니다.
< test.html tail -n 15