[ Java / jsoup ] jsoup 이해하기
2024. 6. 18. 11:18ㆍ[ Self-Study ]
Jsoup
- Jsoup은 Java로 작성된 HTML 파싱 및 조작 라이브러리로, 웹 스크래핑 및 HTML 문서 처리에 사용된다.
- Jsoup을 사용하면 HTML 문서에서 데이터를 추출하거나 수정하는 작업을 쉽게 수행할 수 있다.
- Jsoup은 다양한 HTML 조작 및 스크래핑 작업에 활용될 수 있는 강력한 도구이다.
- Jsoup의 주요 기능 및 사용법
1. HTML 파싱:
Jsoup을 사용하여 HTML 문서를 파싱하면, 문서의 구조를 이해하고 원하는 요소에 쉽게 접근할 수 있다.
파싱이란, HTML 문서를 읽고 이해하여 컴퓨터가 사용할 수 있는 구조로 변환하는 과정이다.
// HTML 문자열을 파싱
Document doc = Jsoup.parse(htmlString);
// URL에서 HTML을 가져와 파싱
Document doc = Jsoup.connect(url).get();
2. 요소 선택:
Jsoup을 사용하여 CSS 선택자를 이용해 특정 HTML 요소를 선택할 수 있다.
// CSS 선택자를 사용하여 요소 선택
Elements links = doc.select("a[href]");
3. 속성 및 텍스트 추출:
선택한 요소로부터 속성이나 텍스트를 추출할 수 있다.
// 속성 추출
String href = link.attr("href");
// 텍스트 추출
String text = link.text();
4. HTML 수정 및 생성:
Jsoup을 사용하여 HTML 문서를 수정하거나 새로운 HTML을 생성할 수 있다.
// 요소의 속성 값 변경
link.attr("href", "newURL");
// 새로운 요소 생성 및 추가
Element newElement = doc.createElement("div");
newElement.text("Hello, Jsoup!");
doc.body().appendChild(newElement);
5. HTML 폼 데이터 전송:
웹 사이트의 폼 데이터를 전송할 때 유용한 메서드도 제공된다.
// 폼 데이터 생성 및 전송
Connection.Response response = Jsoup.connect(url)
.data("username", "myUsername", "password", "myPassword")
.method(Method.POST)
.execute();
[ 사용 예 ]
개인 공부 기록용입니다:)
728x90
'[ Self-Study ]' 카테고리의 다른 글
라이브러리와 API 차이점 (0) | 2024.06.19 |
---|---|
Email이란? (SMTP) (0) | 2024.06.19 |
[ JS / Java ] 데이터베이스 자료를 가져와 차트로 보여주기 (0) | 2024.06.11 |
[ Node.js ] node.js 설치 및 설정 (0) | 2024.04.29 |
화이트리스트 / 블랙리스트 (whitelist / blacklist) (0) | 2024.03.24 |