XPath

2023.08.08· 크롤링

XPath 문법 기초: 웹 데이터 추출의 핵심2 이전 글에서는 XPath의 기본적인 문법과 웹 데이터 추출에서의 중요성에 대해 알아보았다. 이번 글에서는 좀 더 고급 XPath 문법과 기법에 대해 알아보자. 위치 기반 선택 인덱스 사용: 대괄호 안에 숫자를 사용하여 특정 위치의 노드를 선택할 수 있다. 예: //p[1]는 첫 번째 태그를 선택한다. last() 함수: 마지막 노드를 선택하려면 last() 함수를 사용한다. 예: //p[last()]는 마지막 태그를 선택한다. position() 함수: 노드의 위치를 기반으로 선택하려면 position() 함수를 사용한다. 예: //p[position() < 3]는 처음 두 개의 태그를 선택한다. 문자열 함수 substring() 함수: 문자열의 일부분을 ..

XPath 문법 기초. 웹 데이터 추출의 핵심

2023.08.08· 크롤링

XPath 문법 기초. 웹 데이터 추출의 핵심 웹 스크레이핑이나 웹 크롤링을 할 때, 웹 페이지의 특정 요소를 선택하거나 추출하는 데 사용되는 강력한 도구가 있다. 그것은 바로 XPath다. XPath는 XML 문서의 부분을 쿼리하는 데 사용되는 언어로, HTML과 XML 모두에서 사용할 수 있다. XPath란? XPath는 XML Path Language의 약자로, XML 문서의 구조를 통해 요소, 속성, 텍스트 등을 탐색하고 선택하는 데 사용되는 쿼리 언어다. 웹 스크레이핑 도구나 브라우저 확장 프로그램에서도 자주 사용된다. 기본 문법 노드 선택: 가장 기본적인 형태의 XPath는 노드를 선택하는 것이다. /: 루트 노드부터 시작 //: 문서의 어디에서나 .: 현재 노드 ..: 부모 노드 예: //p..

XPath

티스토리툴바