p. 266 힙합 가사 텍스트마이닝

youngwoos / Doit_R

<Do it! 쉽게 배우는 R 데이터 분석> 저장소

213 stars 436 forks source link

안녕하세요, 10장 텍스트마이닝 스터디중입니다.

교재에 나오는 대로 실행했는데요,

txt <- readLines("hiphop.txt") head(txt) 명령을 실행하면

[1] "\"\xba\xb8\xb0\xed \xbdʹ\xd9" "\xc0̷\xb8\xb0\xd4 \xb8\xbb\xc7ϴϱ\xee \xb4\xf5 \xba\xb8\xb0\xed \xbdʹ\xd9" [3] "\xb3\xca\xc8\xf1 \xbb\xe7\xc1\xf8\xc0\xbb \xba\xb8\xb0\xed \xc0־" "\xba\xb8\xb0\xed \xbdʹ\xd9"
[5] "\xb3ʹ\xab \xbe\u07fc\xd3\xc7\xd1 \xbdð\xa3" "\xb3\xaa\xb4\xc2 \xbf츮\xb0\xa1 \xb9Ӵ\xd9"

이런 식으로 한글이 모두 깨져서 나옵니다.

처음 셋팅 시 알려주셨던 대로 인코딩은 프로젝트 단위, 글로벌 단위 모두 UTF-8로 설정했고,

검색을 통해 readLines("hiphop.txt", encoding = "UTF-8")로 해봐도 똑같습니다.

인코딩 설정 시에 UTF-8이 system default로 뜨고 있고,

혹시나 싶어 CP949, EUC-KR도 시도해봤지만 소용이 없습니다.

혹시 해결 방법이 있는지 궁금해서 질문 남깁니다.

youngwoos / Doit_R

p. 266 힙합 가사 텍스트마이닝 #75