크롤링과 스크래핑은 웹페이지에서 정보를 긁어온다
이런정도로만 기억을 하고 있었는데 이 둘의 차이가 그럼 무엇인가?
라는 생각이 들었다.
크롤링(crawling)
https://www.joongang.co.kr/article/25070824#home
웹 돌아다니며 정보 수집…데이터 ‘크롤링’ 날개 다나 | 중앙일보
빅데이터 시대 기반 기술인 크롤링(crawling·온라인상 정보 수집 및 가공)의 허용 범위에 대한 대법원 판단 기준이 나왔다. 민사소송 1심선 "야놀자에 10억 배상" 대법원 관계자는 "양 뿐만 아니라
www.joongang.co.kr
크롤링이란 웹페이지를 가져와서 데이터를 추출해 내는 행위로
정보를 긁어오는 행위가 맞다.
크롤러라고 부르는 프로그램을 통해 웹페이지의 데이터를 추출해내는데
그러한 행위를 크롤링이라고 부른다.
위 기사를 보면 크롤링 기법을 이용해 it회사의 자산인 정보를
마구 긁어가서 문제가 됐던 점에 대해 다루고 있다.
그래서 이러한 문제를 방지하기 위해 각 웹사이트들은 자신들의 도메인 뒤에
robot.txt를 만들어 크롤링의 영역을 지정해주고 있다.
나무위키 또한 위 링크처럼 접근을 허가하고 차단하는 영역에 대해 명시해뒀다.
법적인 문제가 생길수 있으므로 크롤링한 데이터를 사용할때는 꼭 확인해둬야 한다.
하지만 이는 명시만 해뒀을 뿐 과도한 요청을 보내 트래픽에 문제를 일으키는 등의
문제를 일으킨다면 서버 입장에서 요청하는 크롤러의 아이피를 차단시킬 수도 있다.
즉 잦은 데이터 수집은 자제해야 한다.
스크래핑(scraping)
그렇다면 스크래핑이란 무엇인가
스크래핑 또한 웹페이지에서 데이터를 추출해내는 행위다.
이렇게 크롤링과 스크래핑을 같은 의미로 보는 사람도 있고
다른 의미로 구분하는 사람이 있는걸로 봐선 뚜렷한 차이는 없지만
공통적으로 보았을때 스크래핑은 크롤링의 하위의 영역으로 보는 사람이 많다.
크롤링은 방대한 데이터를 마구 긁어온다고 생각한다면
스크래핑은 해당 웹페이지안에서도 필요한 데이터만 쏙쏙 가져온다고 생각하면 될듯하다.
'web > python & JavaScript' 카테고리의 다른 글
python flask session(세션) (0) | 2022.11.01 |
---|---|
python Flask + mongoDB (0) | 2022.10.25 |
python requests parsing (0) | 2022.10.21 |
Ajax Get Post 동작 방식 (0) | 2022.10.20 |
Mac) Flask Port 5000 Error (0) | 2022.10.20 |