'크롤링' 태그의 글 목록

Python `requests` 라이브러리. 웹 요청의 기초

2023.08.09· 크롤링

Python requests 라이브러리: 웹 요청의 기초 웹 스크레이핑이나 API 호출 등, 웹과의 상호작용은 현대 프로그래밍에서 흔한 작업이다. Python에서는 requests라는 라이브러리를 통해 이러한 작업을 간단하게 수행할 수 있다. 이 글에서는 requests의 기본적인 사용법을 알아본다. requests 라이브러리란? requests는 Python에서 HTTP 요청을 보내기 위한 라이브러리다. 간결한 API를 제공하여 웹 서비스와의 상호작용을 쉽게 만들어준다. 설치 방법 requests는 pip를 통해 쉽게 설치할 수 있다: pip install requests 기본적인 사용법 GET 요청 웹 페이지의 내용을 가져오려면 GET 요청을 사용한다. requests.get() 함수를 사용하여 GE..

XPath 문법 기초. 웹 데이터 추출의 핵심2

2023.08.08· 크롤링

XPath 문법 기초: 웹 데이터 추출의 핵심2 이전 글에서는 XPath의 기본적인 문법과 웹 데이터 추출에서의 중요성에 대해 알아보았다. 이번 글에서는 좀 더 고급 XPath 문법과 기법에 대해 알아보자. 위치 기반 선택 인덱스 사용: 대괄호 안에 숫자를 사용하여 특정 위치의 노드를 선택할 수 있다. 예: //p[1]는 첫 번째 태그를 선택한다. last() 함수: 마지막 노드를 선택하려면 last() 함수를 사용한다. 예: //p[last()]는 마지막 태그를 선택한다. position() 함수: 노드의 위치를 기반으로 선택하려면 position() 함수를 사용한다. 예: //p[position() < 3]는 처음 두 개의 태그를 선택한다. 문자열 함수 substring() 함수: 문자열의 일부분을 ..

XPath 문법 기초. 웹 데이터 추출의 핵심

2023.08.08· 크롤링

XPath 문법 기초. 웹 데이터 추출의 핵심 웹 스크레이핑이나 웹 크롤링을 할 때, 웹 페이지의 특정 요소를 선택하거나 추출하는 데 사용되는 강력한 도구가 있다. 그것은 바로 XPath다. XPath는 XML 문서의 부분을 쿼리하는 데 사용되는 언어로, HTML과 XML 모두에서 사용할 수 있다. XPath란? XPath는 XML Path Language의 약자로, XML 문서의 구조를 통해 요소, 속성, 텍스트 등을 탐색하고 선택하는 데 사용되는 쿼리 언어다. 웹 스크레이핑 도구나 브라우저 확장 프로그램에서도 자주 사용된다. 기본 문법 노드 선택: 가장 기본적인 형태의 XPath는 노드를 선택하는 것이다. /: 루트 노드부터 시작 //: 문서의 어디에서나 .: 현재 노드 ..: 부모 노드 예: //p..

공공 API란 무엇인가

2023.08.07· 크롤링

공공 API란 무엇인가? API는 'Application Programming Interface'의 약자로, 애플리케이션 프로그래밍 인터페이스를 의미한다. 간단히 말해, API는 서로 다른 소프트웨어 간의 통신을 가능하게 하는 도구다. 공공 API는 특히 정부나 공공기관에서 제공하는 데이터를 외부 개발자들이 활용할 수 있도록 공개한 API를 말한다. 예를 들어, 기상청에서 제공하는 날씨 정보, 교통부에서 제공하는 교통량 정보 등을 외부 애플리케이션에서 활용하고 싶을 때 공공 API를 통해 해당 정보를 가져올 수 있다. API 활용 예문 날씨 정보 가져오기 기상청에서 제공하는 공공 API를 활용하여 오늘의 날씨 정보를 애플리케이션에 표시한다. import requests api_url = "..

네이버 증권 일별시세 데이터 크롤링 및 데이터 프레임으로 만들기

2023.08.05· 크롤링

사진에 는 행번호가 있는데 작으면 크게 띄워놓고 보고 만약 마크다운 편집기가 있다면 맨마지막에 코드를 올려놓을테니 마크다운 편집기에서 코드블럭으로 만들면 똑같은 행번호가 만들어질것이다. 설명 설명은 첫 줄부터가 아니라 순서도에 따라 설명한다 행번호를 말해 명확히 설명한다. 인수와 변수의 변화를 설명한다. 항상 클래스 관련된 공부를 할때는 노트에 인수와 변수의 이 계속 변하기 때문에 값을 메모해가면서 공부하면 이해하기가 쉽다. 40번 행에서 시작한다. 41번행 com_code변수에 삼성전자의 코드번호 005930을 할당한다. 42번행 crawler = StockDataCrawler(com_code) crawler라는 변수에 클래스의 com_code변수를 인자로 넣어 클래스를 실행하고 결과를 crawler변..

Selenium으로 블로그 페이지 순위 자동검색 프로그램 만들기(naver View순위)

2023.08.02· 크롤링

Selenium으로 검색어를 입력시 내 블로그의 페이지가 네이버 사이트의 view탭에서 몇위에 있는지 자동으로 알아내는 프로그램을 만들어보자 먼저 라이브러리를 import하자여기서 WebDriverWait는 사용을 하지 않지만 습관적으로 이 다섯가지를 import하는 습관을 가지자. import time from selenium import webdriver from selenium.webdriver.common.by import By import chromedriver_autoinstaller from selenium.webdriver.support.ui import WebDriverWait Chrome WebDriver는 가장 오류가 많다. 각자의 크롬 버전이 다르기 때문인데 이걸 쉽게 해주는 코드가..

크롤링

티스토리툴바