'뉴스크롤링' 태그의 글 목록

뉴스크롤링

파이썬 - 크롤링 2 2021.01.12

파이썬 - 크롤링 2

2021. 1. 12. 01:55

처음 셀레니움을 선택하게된건 순전히 구글 때문이다.

다른 웹사이트도 마찬가지이지만, 정보만 쏙 빼가는 프로그램을 그리 좋아하지 않는다.

즉 프로그램을 제작해도 단순해서는 금방 막히기 쉽다는 단점이 있기 때문이다.

빠른 시간 내 접속하여 필요정보는 긁어가는 일을 반복하면 해당 아이피를 차단해버리는

일도 있다고 한다.

유튜버 노마드 코더님이 보여준 인스타그램 자동팔로워늘리기 프로그램에서도 빠른시간 내에 반복작업을 수행하니

금방 블록되는 것을 확인할 수 있었다.

셀레니움을 이용하면 동작은 비록 더 느리지만 왠만해서는 막힐일이 없다는 것이 장점이 되겠다.

웹브라우저를 설치하여 마치 유저가 하는 것마냥 마우스를 움직여 클릭해주는 방식으로 동작을 한다.

물론 막으려고하면 얼마든지 막을 수는 있겠지만 말이다.

그래서 처음 유튜버 조코딩(완성된 소스는 옆 링크를 클릭하여 확인하도록 하자) 님께서 강의하신 셀레니움을 이용해 구글의 이미지를 크롤링하는 방법을 따라해보고 실습해보는 것으로 가닥을 잡았으나, 완성을 해본 뒤 이를 응용하여 포털사이트의 뉴스 헤드라인을 긁어보는 방법을 실습해야 겠다는 생각이 들었다. (절대 강의 내용 정리가 귀찮아서 그런건 아니다.)

이번에는 beautifulsoup4를 설치하여 실시한다.

pip install BeautifulSoup4 를 터미널에 입력한다