728x90
이번 글에서는 크롤링, 스크래핑과 파싱의 차이점에 대해서 정리하고자 한다.
크롤링
- 크롤러(자동화 봇)가 무수히 많은 인터넷 상의 페이지(문서, html)를 수집해서 어떤 사이트에 어떤 정보가 있는지 분류하고 나중에 쉽게 찾아볼 수 있도록 하는 것
스크래핑
- 웹 사이트에서 원하는 정보를 추출하는 기술
파싱
- 페이지에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것을 말한다.
크롤링, 스크래핑, 파싱에 대한 용어 정의는 사람마다 조금씩 다른 것 같다. 크롤링과 스크래핑을 동일선상에서 말씀하시는 분들도 있고, 스크래핑이 크롤링의 상위 개념처럼 말씀하시는 분도 있다. 용어 간의 관계를 완벽하게 이해하기보단 각각의 용어에 대해 개념 정도는 알고 있는 게 좋을 것 같다.
728x90