본문 바로가기
review/DEV

책 리뷰 : 파이썬으로 웹 크롤러 만들기

by ㅇㄱㅈㄱ 2024. 2. 2.
728x90
반응형

[한빛미디어 '나는 리뷰어다' 2020년 08월 이벤트 도서 리뷰입니다]


요약

 

- 두껍지 않아서 좋은 크롤러에 대해 접하기 좋은 크롤링 관련 서적!

- 크롤링의 시작부터 좀 더 나아간 심화 내용, '이런것도 있으면 좋겠다' 싶은 내용까지 가득!

- 파이썬을 어느정도 알고 있으면 조금 더 수월하게 볼 수 있음(아에 파이썬에 대한 지식이 없다면 힘들것)

- 크롤링 윤리에 대해 한번쯤은 생각하게 하는 깔끔한 마무리

- 2판이라고 홍보하는게 없는걸 보니 1판에 비해 딱히 뭐가 크게 변하고 그런건 없는듯(내용이 좀 더 깔끔해졌나?)


요즘엔 '파이썬' 하면

'딥러닝'

'머신러닝'

'인공지능'

'빅데이터'

등을 떠올리지만,

 

약 5년전만 해도 '파이썬' 하면

바로 이것을 가장 먼저 떠올렸다.

 

'크롤링'

 

크롤링은 '스크래핑', '파싱' 등등...

여러가지 이름으로 불리지만

'어떤 데이터를 가져온다'는 의미는 같다.

 

오늘은 멋쟁이 동물이 함께하는 크롤링 서적

'파이썬으로 웹 크롤러 만들기 (2판) 이다!

 

한빛미디어엔 세상의 멸종위기동물의 아름다운 자태가 들어간 서적이 많다.

처음엔 '뭔 동물이지...' 하면서 프로그래밍과 관련이 있는건가 했지만

딱히 그런건 아닌것 같다.

 

왜 동물이 들어갔는지 궁금하시다면 아래 링크로...

 

오라일리(O'Reilly) 동물들은 이상하고 생소한 유닉스 때문에 만들어졌다?!

오라일리(O'Reilly)표지_동물이야기오라일리에서 동물 표지는 언제, 어떻게 만들어 진거지?1980년대 중반, 오라일리(O'Reilly & Associates)는 유닉스에 관한 짧은 책을우편 주문을 통해 판매했습니다.담�

www.hanbit.co.kr

어쨌거나...

최근 회사에서 크롤링 관련 프로젝트를 시작할 것 같다는 말을 듣고

짬을 내서 파이썬 크롤링을 시도해 보았다.

 

워낙 한참 유명했고 지금도 유명한 크롤링이라 자료들이 많아서

수월하게 진행할 수 있었지만,

근본적으로 크롤링에 대한 의문은 가져본 적이 없었다.

 

이 책에는

기본적인 접근부터 크롤링을 하면서 물음표를 갖게 하는 의문에 대한 이야기도 나와있다.

여기선 '스크레이퍼' 라고 한다...

기본적으로 파이썬 문법만으로도 크롤링을 할 수 있지만,

오랜세월 최적화를 거치면서 손쉽게 사용할 수 있는 파이썬 크롤러 라이브러리

'BeautifulSoup'의 사용법부터

크롤링을 하기위한 HTML 분석을 시작으로

저자가 크롤리을 분석하면서 느꼈던 불편함을 해소하기 위한

'스크레이피'라는 도구의 사용법,

또 한단계 더 나아가 크롤링한 데이터를 활용할 수 있는 방법까지

다양한 크롤링 활용법을 보여준다.

 

크롤링 활용법을 끝마치면

'크롤링 끝!'

이 아니라

크롤링 된 데이터를 어떻게 해야 좀 더 최적화 할 수 있는지에 대해 이야기 하고,

좀 더 나아가 크롤링하는 데이터가 '텍스트'에서 끝나지 않고

'이미지'를 어떻게 인식할 것인지에 대해 이야기해서

참 흥미로웠다.

 

마지막으론 크롤링 윤리에 대해 이야기 한다.

'나는 그냥 보이니까 활용했을 뿐인데' 라는 변명은 이제 통하지 않는 세상이 왔다.

데이터'라는건 '돈'이 되는 세상이 되었기 때문에

많은 회사들이 크롤링에 대해 민감할 수 밖에 없어졌다.

 

크롤링을 할 땐 리소스를 사용하기 때문에 과도한 크롤링은

해당 사이트에 막심한 손해를 끼칠 수 있으니 주의해야 한다.

(너무 접속이 지나치면 IP를 차단부터 고소까지... )

 

이젠 '그냥 하면된다' 가 아니라

'제대로 알고 해야한다'가 맞는것 같다.

마지막 장은 내가 하는 일에 대한

근본적인 생각을 하게 만들기 때문에

조금 더 의미가 있지 않았나 싶다.

728x90
반응형

댓글