Selenium은 웹 애플리케이션을 자동화하는 데 사용되는 프레임워크로, 웹 브라우저를 제어하고 웹 페이지를 조작하여 웹 크롤링, 웹 테스팅 등 다양한 작업을 자동으로 수행할 수 있다. 이제 Selenium에서 가장 많이 사용되는 함수들을 하나씩 알아보자. get(): 웹 페이지로 이동하기 get() 함수는 지정된 URL로 웹 브라우저를 이동하는 역할을 한다. 웹 페이지를 방문하고 해당 페이지의 정보를 가져오려면 먼저 해당 페이지로 이동해야 한다.from selenium import webdriver driver = webdriver.Chrome() driver.get('https://www.example.com') 2. find_element_by_XXX(): 웹 요소 찾기 - `find..
크롤링
Scrapy란 Scrapy는 파이썬으로 작성된 오픈 소스 웹 크롤링 프레임워크다. Scrapy를 사용하면 웹 사이트를 방문하고, 데이터를 추출하고, 원하는 형식으로 저장하는 등의 작업을 할 수 있다. Scrapy의 특징 강력한 크롤링 기능:Scrapy는 복잡한 웹사이트에서 데이터를 크롤링하고 추출하는데 필요한 모든 기능을 제공한다. 고성능: Scrapy는 비동기 네트워킹 라이브러리인 Twisted를 기반으로 구축되었다. 이를 통해 Scrapy는 동시에 여러 웹 페이지를 크롤링할 수 있으며, 이는 높은 성능을 보장한다. Twisted는 Python에서 사용할 수 있는 이벤트 기반의 네트워킹 엔진이다. 이벤트 기반 프로그래밍은 특정 이벤트가 발생할 때까지 기다리는 대신, 이벤트가 발생하면 콜백 함수를 통해 ..
BeautifulSoup는 HTML과 XML 문서를 파싱하기 위한 라이브러리로, 웹 페이지의 복잡한 구조를 쉽게 분석해서 원하는 정보를 찾아낼 수 있다. 이번 포스팅에서는 간단히 BeautifulSoup의 사용법에 대해 알아보자 Beautifulsoup 사용법 먼저 BeautifulSoup를 설치해야 한다. pip install beautifulsoup4 이제 BeautifulSoup 객체를 만들어 보자. 이 객체로 HTML 문서 전체를 다룰 수 있다. from bs4 import BeautifulSoup html_doc = """ The Dormouse's story """ soup = BeautifulSoup(html_doc, 'html.parser') ``` 그럼 이제 HTML 문서의 태그에 쉽게 ..
파싱이란, 문장이나 문서를 구성하는 요소로 분해하고 이들 간의 관계를 분석하는 것이다. 웹 크롤링에서의 파싱은 HTML, XML, JSON 등의 데이터를 우리가 사용하기 쉬운 형태로 분석하고 변환하는 것을 말한다. 예를 들어서, HTML 문서를 파싱한다고 치자. HTML은 웹 페이지의 구조를 나타내는 태그로 이루어져 있다. 이때, 파서(parser)는 이 태그들을 해석하고, 문서의 구조를 파악한다. 그 후 이를 트리구조로 나타내는데, 이 트리는 DOM(Document Object Model) 트리라고 한다. 이 DOM 트리를 통해 특정 요소에 접근하거나, 수정, 삭제 등의 조작을 할 수 있다. BeautifulSoup 라이브러리의 예시코드를 보자 from bs4 import BeautifulSoup ht..
크롤링이란 간단하게 말하면 인터넷에 있는 웹페이지를 방문해서 그곳에 있는 정보를 수집하는 것이다. 이런 작업을 자동으로 하는 프로그램을 '크롤러' 또는 '스파이더' 라고 부르는데, 이름처럼 웹을 돌아다니며 정보를 수집한다고 생각하면 이해하기 쉽다. 데이터 과학에서 크롤링은 매우 중요한 단계다. 왜냐하면, 데이터를 필요로 하는데 그 데이터를 얻는 가장 풍부한 곳이 바로 인터넷이기 때문이다. 인터넷은 방대한 정보의 바다라고 할 수 있고, 여기서 필요한 정보를 수집해서 데이터 분석에 활용하면 좋다. Python에서는 Beautiful Soup라는 라이브러리를 이용해서 웹 크롤링을 진행할 수 있다. 한번 웹페이지의 HTML 정보를 가져와 보는 간단한 코드를 살펴보자. from bs4..