Blog Content

    티스토리 뷰

    네이버 실시간 검색어 순위 HTML 파싱하기



    안녕하세요. 오늘은 네이버 실시간 검색어를 가져오려고 합니다.


    예전에 네이버 오픈 API 에서 실시간 검색어를 지원해주는 API가 있던 걸로 아는데


    현재는 없어진 걸로 알고 있습니다.


    그래서 네이버 실시간 검색어가 존재하는 HTML 을 파싱해서 


    콘솔에 보여주는 간단한 프로그램을 만들어보려고 합니다.


    그럼, 시작합니다.



    - 개발 환경 : java 7

      HTML 을 파싱하기 위해서 jsoup을 이용했습니다. 



    - 라이브러리 : jsoup-1.7.2.jar



    - HTML 확인


    우선 HTML 을 확인해 보겠습니다. 


    http://www.naver.com 로 이동해서 소스보기를 해보면 아래와 같이 실시간 급상승 검색어를 


    확인해 볼 수 있습니다.



    위의 HTML 을 확인해보면 어떻게 파싱을 해야할지 보이시죠? ^^


    네이버 실시간 검색어 목록이 id 가 'realrank' 를 가지는 ol 태그에 감싸져 있고


    각각에 검색어는 li 태그안에 있군요. 근데 마지막 id 가 'lastrank' 를 가지는 li 태그는


    검색어 1위인 내용과 중복되는군요. 이 부분은 파싱할 때 빼야겠군요.


    그럼 HTML 파악은 끝났으니 구현해보겠습니다.


    소스는 아래와 같습니다.



    - NaverRealTimeRanking 클래스



    a 태그 안에 있는 내용들을 태그명으로 가져오고 있습니다.

    결과 화면은 아래와 같습니다.


    - 결과화면 



    참 쉽죠? ^^

    이상 jsoup 을 이용한 네이버 실시간 검색어 순위 HTML 파싱하기를 마치겠습니다.




    Comments