[한빛미디어 '나는 리뷰어다' 2020년 08월 이벤트 도서 리뷰입니다]
요약
- 두껍지 않아서 좋은 크롤러에 대해 접하기 좋은 크롤링 관련 서적!
- 크롤링의 시작부터 좀 더 나아간 심화 내용, '이런것도 있으면 좋겠다' 싶은 내용까지 가득!
- 파이썬을 어느정도 알고 있으면 조금 더 수월하게 볼 수 있음(아에 파이썬에 대한 지식이 없다면 힘들것)
- 크롤링 윤리에 대해 한번쯤은 생각하게 하는 깔끔한 마무리
- 2판이라고 홍보하는게 없는걸 보니 1판에 비해 딱히 뭐가 크게 변하고 그런건 없는듯(내용이 좀 더 깔끔해졌나?)
요즘엔 '파이썬' 하면
'딥러닝'
'머신러닝'
'인공지능'
'빅데이터'
등을 떠올리지만,
약 5년전만 해도 '파이썬' 하면
바로 이것을 가장 먼저 떠올렸다.
'크롤링'
크롤링은 '스크래핑', '파싱' 등등...
여러가지 이름으로 불리지만
'어떤 데이터를 가져온다'는 의미는 같다.
오늘은 멋쟁이 동물이 함께하는 크롤링 서적

'파이썬으로 웹 크롤러 만들기 (2판) 이다!
한빛미디어엔 세상의 멸종위기동물의 아름다운 자태가 들어간 서적이 많다.
처음엔 '뭔 동물이지...' 하면서 프로그래밍과 관련이 있는건가 했지만
딱히 그런건 아닌것 같다.
왜 동물이 들어갔는지 궁금하시다면 아래 링크로...
오라일리(O'Reilly) 동물들은 이상하고 생소한 유닉스 때문에 만들어졌다?!
오라일리(O'Reilly)표지_동물이야기오라일리에서 동물 표지는 언제, 어떻게 만들어 진거지?1980년대 중반, 오라일리(O'Reilly & Associates)는 유닉스에 관한 짧은 책을우편 주문을 통해 판매했습니다.담�
www.hanbit.co.kr
어쨌거나...
최근 회사에서 크롤링 관련 프로젝트를 시작할 것 같다는 말을 듣고
짬을 내서 파이썬 크롤링을 시도해 보았다.
워낙 한참 유명했고 지금도 유명한 크롤링이라 자료들이 많아서
수월하게 진행할 수 있었지만,
근본적으로 크롤링에 대한 의문은 가져본 적이 없었다.
이 책에는
기본적인 접근부터 크롤링을 하면서 물음표를 갖게 하는 의문에 대한 이야기도 나와있다.



기본적으로 파이썬 문법만으로도 크롤링을 할 수 있지만,
오랜세월 최적화를 거치면서 손쉽게 사용할 수 있는 파이썬 크롤러 라이브러리
'BeautifulSoup'의 사용법부터
크롤링을 하기위한 HTML 분석을 시작으로
저자가 크롤리을 분석하면서 느꼈던 불편함을 해소하기 위한
'스크레이피'라는 도구의 사용법,
또 한단계 더 나아가 크롤링한 데이터를 활용할 수 있는 방법까지
다양한 크롤링 활용법을 보여준다.



크롤링 활용법을 끝마치면
'크롤링 끝!'
이 아니라
크롤링 된 데이터를 어떻게 해야 좀 더 최적화 할 수 있는지에 대해 이야기 하고,
좀 더 나아가 크롤링하는 데이터가 '텍스트'에서 끝나지 않고
'이미지'를 어떻게 인식할 것인지에 대해 이야기해서
참 흥미로웠다.
마지막으론 크롤링 윤리에 대해 이야기 한다.
'나는 그냥 보이니까 활용했을 뿐인데' 라는 변명은 이제 통하지 않는 세상이 왔다.
데이터'라는건 '돈'이 되는 세상이 되었기 때문에
많은 회사들이 크롤링에 대해 민감할 수 밖에 없어졌다.
크롤링을 할 땐 리소스를 사용하기 때문에 과도한 크롤링은
해당 사이트에 막심한 손해를 끼칠 수 있으니 주의해야 한다.
(너무 접속이 지나치면 IP를 차단부터 고소까지... )
이젠 '그냥 하면된다' 가 아니라
'제대로 알고 해야한다'가 맞는것 같다.
마지막 장은 내가 하는 일에 대한
근본적인 생각을 하게 만들기 때문에
조금 더 의미가 있지 않았나 싶다.
'review > DEV' 카테고리의 다른 글
| 책 리뷰 : 파이썬을 활용한 금융공학 레시피 (0) | 2024.02.02 |
|---|---|
| 책 리뷰 : 파이썬 웹 프로그래밍 (0) | 2024.02.02 |
| 책 리뷰 : Do it! 프로그레시브 웹앱 만들기 (1) | 2024.02.02 |
| 책 리뷰 : 객체지향 사고 프로세스 (0) | 2024.02.02 |
| 책 리뷰 : 코틀린을 다루는 기술 (1) | 2024.02.02 |
댓글