clingku / w2v_kr

This repository includes scripts and text resources related to the task of automatic compositionality detection using word2vec embeddings. We test the applicability of the method to ambiguous phrases for Korean language.
Apache License 2.0
1 stars 0 forks source link

나무위키/한글위키 전처리 #4

Open hauni opened 7 years ago

hauni commented 7 years ago

2017년 7월 23일 오후 9:25, Jae-Woong Choe jchoe@korea.ac.kr님이 작성: 참, 나무위키 big file문제 풀렸니? 나도 링크를 찾아 다운로드해보니 처리가 쉽지 않더구나. 세가지 문제가 있는 듯.

  1. 파일이 7기가나 된다는 점: 그러나 이것은 프로그램으로 처리 가능
  2. 파일 전체가 single line으로 되어 있다는 점: 이런 문제는 겪어본 적이 없어서 어떻게 풀어야할지 잘 모르겠슴.
  3. 파일이 적절히 encoding되어 보이지 않는다는 점: 네 컴에서는 한글이 제대로 나오니? 내 컴퓨터에서는 크롬이나 에디터에서 아래처럼 unicode로 나옴.

최재웅

[{"namespace":"0","title":"!","text":"#redirect \ub290\ub08c\ud45c\n","contributors":["namubot","R:hoon12560"]},{"namespace":"0","title":"!!\uc544\uc557!!","text":"[[\ud30c\uc77c:3444050440.jpg]]\n([[\uc2e0 \uc138\uacc4\uc218\uc758 \ubbf8\uad81 2]]\uc5d0\uc11c \ub72c !!\uc544\uc557!!)\n{{{+1 \uff01\uff01\u3042\u3042\u3063\u3068\uff01\uff01 }}}\n\n[[\uc138\uacc4\uc218\uc758 \ubbf8\uad81 \uc2dc\ub9ac\uc988]]\uc5d0 \uc804\ud1b5\uc73c\ub85c \ub4f1\uc7a5\ud558\ub294 \ub300\uc0ac. [[\uc138\uacc4\uc218\uc758 \ubbf8\uad81 2 \uc81c\uc655\uc758 \uc131\ubc30|2\ud3b8 \uc81c\uc655\uc758 \uc131\ubc30]]\ubd80\ud130 \ub4f1\uc7a5\ud588\uc73c\uba70, \ud6cc\ub96d\ud55c [[\uc0ac\ub9dd \ud50c\ub798\uadf8]]\uc758 \uc608\uc2dc\uc774\ub2e4.\n\n\uc138\uacc4\uc218\uc758 \ubaa8\ud5d8\uac00\ub4e4\uc774 \ud0d0\ud5d8\ud558\ub294 \ub358\uc804\uc778 \uc218\ud574\uc758 \uad6c\uc11d\uad6c\uc11d\uc5d0\ub294 \ucc44\ucde8\/\ubc8c\ucc44\/\ucc44\uad74 \ud3ec\uc778\ud2b8\uac00 \uc788\uc73c\uba70, \uc774\ub97c \uc704\ud55c \ucc44\uc9d1 \uc2a4\ud0ac\uc5d0 \ud22c\uc790\ud558\uba74 \uc81c\ud55c\ub41c \ucc44\uc9d1 \uae30\ud68c\uc5d0 \ubcf4\ub2e4 \ud070 \uc774\ub4dd\uc744 \ucc59\uae38 \uc218 \uc788\ub2e4. \uadf8\ub7ec\ub098 \ubd84\ubc30\ud560 \uc218 \uc788\ub294 \uc2a4\ud0ac \ud3ec\uc778\ud2b8\ub294 \ud55c\uc815\ub41c \ub9cc\ud07c \ucc44\uc9d1 \uc2a4\ud0ac\uc5d0 \ud22c\uc790\ud558\ub294 \ub9cc\ud07c \uc804\ud22c \uc2a4\ud0ac \ub808\ubca8\uc740 \ub0ae\uc544\uc9c0\uac8c \ub41c\ub2e4.\n\n 1.

hauni commented 7 years ago

2017년 7월 23일 오후 10:11, Yeonwoo Kim wiskingdom@gmail.com님이 작성: 네, 말씀해주신 부분들은 해결하였습니다. 싱글라인 문제는 캐릭터 단위로 파일을 읽어서 해결하였습니다.

unicode 문제는 다소 어렵게 해결을 하였는데요. 실마리는 저 문자코드들이 스크립트 리터럴로 인터프리터로 들어가면 글자로 나온다는 것이었습니다.

x="#redirect \ub290\ub08c\ud45c\n" printf x

=> "#redirect 느낌표\n"

이런식입니다.

그래서 위키파일을 위와 같이 스크립트 형식으로 바꾸어 출력해주는 스크립트을 만들고 그렇게 출력된 스크립트들을 돌려서 해결하였습니다.

어떻게든 해결은 되어 다행입니다.

김연우 올림

wiskingdom commented 7 years ago

to @hauni

인민에어에서 나무위키 json 파일 로드를 시도해봤는데요. 여기서도 메모리 한계 때문에 로드가 안됩니다. 캐릭터 단위로 처리하는 작업은 내일 정도면 다 끝날 것 같습니다. 가상 머신에서 돌리고 있어서 그런지 더 느린 것 같습니다.