크롤링

· 크롤링
Python requests 라이브러리: 웹 요청의 기초 웹 스크레이핑이나 API 호출 등, 웹과의 상호작용은 현대 프로그래밍에서 흔한 작업이다. Python에서는 requests라는 라이브러리를 통해 이러한 작업을 간단하게 수행할 수 있다. 이 글에서는 requests의 기본적인 사용법을 알아본다. requests 라이브러리란? requests는 Python에서 HTTP 요청을 보내기 위한 라이브러리다. 간결한 API를 제공하여 웹 서비스와의 상호작용을 쉽게 만들어준다. 설치 방법 requests는 pip를 통해 쉽게 설치할 수 있다: pip install requests 기본적인 사용법 GET 요청 웹 페이지의 내용을 가져오려면 GET 요청을 사용한다. requests.get() 함수를 사용하여 GE..
· 크롤링
XPath 문법 기초: 웹 데이터 추출의 핵심2 이전 글에서는 XPath의 기본적인 문법과 웹 데이터 추출에서의 중요성에 대해 알아보았다. 이번 글에서는 좀 더 고급 XPath 문법과 기법에 대해 알아보자. 위치 기반 선택 인덱스 사용: 대괄호 안에 숫자를 사용하여 특정 위치의 노드를 선택할 수 있다. 예: //p[1]는 첫 번째 태그를 선택한다. last() 함수: 마지막 노드를 선택하려면 last() 함수를 사용한다. 예: //p[last()]는 마지막 태그를 선택한다. position() 함수: 노드의 위치를 기반으로 선택하려면 position() 함수를 사용한다. 예: //p[position() < 3]는 처음 두 개의 태그를 선택한다. 문자열 함수 substring() 함수: 문자열의 일부분을 ..
· 크롤링
XPath 문법 기초. 웹 데이터 추출의 핵심 웹 스크레이핑이나 웹 크롤링을 할 때, 웹 페이지의 특정 요소를 선택하거나 추출하는 데 사용되는 강력한 도구가 있다. 그것은 바로 XPath다. XPath는 XML 문서의 부분을 쿼리하는 데 사용되는 언어로, HTML과 XML 모두에서 사용할 수 있다. XPath란? XPath는 XML Path Language의 약자로, XML 문서의 구조를 통해 요소, 속성, 텍스트 등을 탐색하고 선택하는 데 사용되는 쿼리 언어다. 웹 스크레이핑 도구나 브라우저 확장 프로그램에서도 자주 사용된다. 기본 문법 노드 선택: 가장 기본적인 형태의 XPath는 노드를 선택하는 것이다. /: 루트 노드부터 시작 //: 문서의 어디에서나 .: 현재 노드 ..: 부모 노드 예: //p..
· 크롤링
공공 API란 무엇인가? API는 &#39;Application Programming Interface&#39;의 약자로, 애플리케이션 프로그래밍 인터페이스를 의미한다. 간단히 말해, API는 서로 다른 소프트웨어 간의 통신을 가능하게 하는 도구다. 공공 API는 특히 정부나 공공기관에서 제공하는 데이터를 외부 개발자들이 활용할 수 있도록 공개한 API를 말한다. 예를 들어, 기상청에서 제공하는 날씨 정보, 교통부에서 제공하는 교통량 정보 등을 외부 애플리케이션에서 활용하고 싶을 때 공공 API를 통해 해당 정보를 가져올 수 있다. API 활용 예문 날씨 정보 가져오기 기상청에서 제공하는 공공 API를 활용하여 오늘의 날씨 정보를 애플리케이션에 표시한다. import requests api_url = "..
· 크롤링
사진에 는 행번호가 있는데 작으면 크게 띄워놓고 보고 만약 마크다운 편집기가 있다면 맨마지막에 코드를 올려놓을테니 마크다운 편집기에서 코드블럭으로 만들면 똑같은 행번호가 만들어질것이다. 설명 설명은 첫 줄부터가 아니라 순서도에 따라 설명한다 행번호를 말해 명확히 설명한다. 인수와 변수의 변화를 설명한다. 항상 클래스 관련된 공부를 할때는 노트에 인수와 변수의 이 계속 변하기 때문에 값을 메모해가면서 공부하면 이해하기가 쉽다. 40번 행에서 시작한다. 41번행 com_code변수에 삼성전자의 코드번호 005930을 할당한다. 42번행 crawler = StockDataCrawler(com_code) crawler라는 변수에 클래스의 com_code변수를 인자로 넣어 클래스를 실행하고 결과를 crawler변..
· 크롤링
Selenium으로 검색어를 입력시 내 블로그의 페이지가 네이버 사이트의 view탭에서 몇위에 있는지 자동으로 알아내는 프로그램을 만들어보자 먼저 라이브러리를 import하자여기서 WebDriverWait는 사용을 하지 않지만 습관적으로 이 다섯가지를 import하는 습관을 가지자. import time from selenium import webdriver from selenium.webdriver.common.by import By import chromedriver_autoinstaller from selenium.webdriver.support.ui import WebDriverWait Chrome WebDriver는 가장 오류가 많다. 각자의 크롬 버전이 다르기 때문인데 이걸 쉽게 해주는 코드가..
djangin
'크롤링' 태그의 글 목록