youngwoos / Doit_R

<Do it! 쉽게 배우는 R 데이터 분석> 저장소
213 stars 436 forks source link

p. 266 힙합 가사 텍스트마이닝 #75

Open DYK1323 opened 1 year ago

DYK1323 commented 1 year ago

안녕하세요, 10장 텍스트마이닝 스터디중입니다.

교재에 나오는 대로 실행했는데요,

txt <- readLines("hiphop.txt") head(txt) 명령을 실행하면

[1] "\"\xba\xb8\xb0\xed \xbdʹ\xd9" "\xc0̷\xb8\xb0\xd4 \xb8\xbb\xc7ϴϱ\xee \xb4\xf5 \xba\xb8\xb0\xed \xbdʹ\xd9" [3] "\xb3\xca\xc8\xf1 \xbb\xe7\xc1\xf8\xc0\xbb \xba\xb8\xb0\xed \xc0־" "\xba\xb8\xb0\xed \xbdʹ\xd9"
[5] "\xb3ʹ\xab \xbe\u07fc\xd3\xc7\xd1 \xbdð\xa3" "\xb3\xaa\xb4\xc2 \xbf츮\xb0\xa1 \xb9Ӵ\xd9"

이런 식으로 한글이 모두 깨져서 나옵니다.

처음 셋팅 시 알려주셨던 대로 인코딩은 프로젝트 단위, 글로벌 단위 모두 UTF-8로 설정했고,

검색을 통해 readLines("hiphop.txt", encoding = "UTF-8")로 해봐도 똑같습니다.

인코딩 설정 시에 UTF-8이 system default로 뜨고 있고,

혹시나 싶어 CP949, EUC-KR도 시도해봤지만 소용이 없습니다.

혹시 해결 방법이 있는지 궁금해서 질문 남깁니다.

youngwoos commented 1 year ago

맥 사용자시면 아래 글 참고하여 다시 시도해보시겠어요?

맥에서 불러들인 파일의 문자가 깨질 때 https://github.com/youngwoos/Doit_R/blob/master/FAQ/Mac_TextEncodingError.md

윈도우 사용자시면 R과 RStudio 최신 버전을 설치한 다음 다시 시도해보시겠어요? 최근 버전에서 인코딩 문제가 많이 해결되었습니다.

그래도 해결되지 않으면 아래 데이터 분석 커뮤니티에 질문을 올려주세요. 보다 빨리 답변을 받아보실 수 있습니다.

데이터 분석 커뮤니티 https://www.facebook.com/groups/datacommunity/

감사합니다.