원인: 이 국토부 웹페이지는 어떠한 종류의 인코딩 정보도 주지 않는 보기 드문 유물이다. html 헤더에도 없고, http 헤더에도 없다. 그런데 인코딩은 EUC-KR이다. 브라우저는 인코딩 자동 검색 기능을 통해 제대로 표시되는 것으로 보인다. 자동 검색 기능이 없는 epiphany같은 브라우저는 역시 제목이 깨져 나온다.
HTTP 발췌:
GET / HTTP/1.1
Host: rt.mltm.go.kr
HTTP/1.1 200 OK
Date: Fri, 25 Jan 2013 17:07:57 GMT
Server: IBM_HTTP_Server
Accept-Ranges: bytes
Content-Length: 1650
Last-Modified: Mon, 17 Sep 2012 06:17:54 GMT
X-Powered-By: Servlet/2.5 JSP/2.1
Content-Type: text/html
유일한 해결 방법은 역시 인코딩 자동 검색인데, 문제는 Jsoup의 Document.title()은 이미 리턴하기 전에 이 제목을 유니코드로 변환하면서 실패해 replacement character로 변환된 결과를 리턴한다는 점이다.
uriinfo 기능 http://rt.mltm.go.kr 사이트에 대해 제목이 깨져 나온다.
원인: 이 국토부 웹페이지는 어떠한 종류의 인코딩 정보도 주지 않는 보기 드문 유물이다. html 헤더에도 없고, http 헤더에도 없다. 그런데 인코딩은 EUC-KR이다. 브라우저는 인코딩 자동 검색 기능을 통해 제대로 표시되는 것으로 보인다. 자동 검색 기능이 없는 epiphany같은 브라우저는 역시 제목이 깨져 나온다.
HTTP 발췌: