티스토리 뷰

에디터에서 문서를 작성하고, 서버로 텍스트를 전달한다면 기본적으로 HTML태그들이 포함되서 넘어오게 된다.

 

하지만 데이터 분석을 위해서는 HTML태그를 제거한 순수 텍스트에 대한 정보가 필요하다.

 

슬프게도 자바 혹은 스프링에서 자체적으로 HTML태그를 뚝딱 제거하는 기능이 없다 ㅠ

 

굳이 방법이 있다면, 정규식을 이용하는건데 이 방법은 별로 추천하고 싶지 않은 방법이다.

(정규식을 정교하게 짜지 않는다면, 사용자가 실수로 넣은 기호들이 제거될 수도 있다) 

 

당연한 이야지만 정규식을 사용하지 않고 HTML 태그를 제거하는 방법이 있다.

 

JSoup라는 라이브러리인데, 이 라이브러리를 이용해 HTML 태그를 제거하는 방법을 소개하고자한다.

 

JSoup

JSoup은 HTML 문서에 저장된 데이터를 구문 분석, 추출 및 조작하도록 설계된 오픈 소스 Java 라이브러리입니다.
- 위키백과

 

JSoup는 HTML parser로서 다양한 기능을 제공하는데, 내가 사용하고자하는 기능은 HTML 태그를 제거하는 기능이다.

 

의존성 가져오기

build.gradle

implementation 'org.jsoup:jsoup:1.14.3'

 

HTML 제거 기능 

사용법 자체는 API 하나만 가져다쓰면되서 간단하다.

 

예시 Text

<p><span style="color:#644f9f;"></span></p><p>생일 선물 추천: 세트로 된 차, 핸드크림, 가죽 액세서리, 레스토랑 예약, 커플 마사지 등.</p><p></p><p style="font-size:12px;color:#e0d1ff;">기본 생성된 컨텐츠!!</p><hr style="background: #e0d1ff;border: 0;height: 1px;">

 

예시 코드

String text = [HTML이 포함된 코드];
String convertingText = Jsoup.clean(text, Whitelist.none());

 

결과 Text

생일 선물 추천: 세트로 된 차, 핸드크림, 가죽 액세서리, 레스토랑 예약, 커플 마사지 등.기본 생성된 컨텐츠!!

 

깔끔하게 HTML 태그만 제거된 결과를 얻을 수 있다.

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함