[ Java / jsoup ] jsoup 이해하기

2024. 6. 18. 11:18[ Self-Study ]

 

Jsoup 

  • Jsoup은 Java로 작성된 HTML 파싱 및 조작 라이브러리로, 웹 스크래핑 및 HTML 문서 처리에 사용된다.
  • Jsoup을 사용하면 HTML 문서에서 데이터를 추출하거나 수정하는 작업을 쉽게 수행할 수 있다.
  • Jsoup은 다양한 HTML 조작 및 스크래핑 작업에 활용될 수 있는 강력한 도구이다.

 

  • Jsoup의 주요 기능 및 사용법

1. HTML 파싱:
   Jsoup을 사용하여 HTML 문서를 파싱하면, 문서의 구조를 이해하고 원하는 요소에 쉽게 접근할 수 있다.

   파싱이란, HTML 문서를 읽고 이해하여 컴퓨터가 사용할 수 있는 구조로 변환하는 과정이다.

// HTML 문자열을 파싱
Document doc = Jsoup.parse(htmlString);

// URL에서 HTML을 가져와 파싱
Document doc = Jsoup.connect(url).get();


2. 요소 선택:
   Jsoup을 사용하여 CSS 선택자를 이용해 특정 HTML 요소를 선택할 수 있다.

// CSS 선택자를 사용하여 요소 선택
Elements links = doc.select("a[href]");

 


3. 속성 및 텍스트 추출:
   선택한 요소로부터 속성이나 텍스트를 추출할 수 있다.

// 속성 추출
String href = link.attr("href");

// 텍스트 추출
String text = link.text();



4. HTML 수정 및 생성:
   Jsoup을 사용하여 HTML 문서를 수정하거나 새로운 HTML을 생성할 수 있다.

// 요소의 속성 값 변경
link.attr("href", "newURL");

// 새로운 요소 생성 및 추가
Element newElement = doc.createElement("div");
newElement.text("Hello, Jsoup!");
doc.body().appendChild(newElement);



5. HTML 폼 데이터 전송:
   웹 사이트의 폼 데이터를 전송할 때 유용한 메서드도 제공된다.

// 폼 데이터 생성 및 전송
Connection.Response response = Jsoup.connect(url)
   .data("username", "myUsername", "password", "myPassword")
   .method(Method.POST)
   .execute();

 


[ 사용 예 ]

 

 

 

 

 

개인 공부 기록용입니다:)

728x90