Open hauni opened 7 years ago
2017년 7월 23일 오후 10:11, Yeonwoo Kim wiskingdom@gmail.com님이 작성: 네, 말씀해주신 부분들은 해결하였습니다. 싱글라인 문제는 캐릭터 단위로 파일을 읽어서 해결하였습니다.
unicode 문제는 다소 어렵게 해결을 하였는데요. 실마리는 저 문자코드들이 스크립트 리터럴로 인터프리터로 들어가면 글자로 나온다는 것이었습니다.
x="#redirect \ub290\ub08c\ud45c\n" printf x
이런식입니다.
그래서 위키파일을 위와 같이 스크립트 형식으로 바꾸어 출력해주는 스크립트을 만들고 그렇게 출력된 스크립트들을 돌려서 해결하였습니다.
어떻게든 해결은 되어 다행입니다.
김연우 올림
to @hauni
인민에어에서 나무위키 json 파일 로드를 시도해봤는데요. 여기서도 메모리 한계 때문에 로드가 안됩니다. 캐릭터 단위로 처리하는 작업은 내일 정도면 다 끝날 것 같습니다. 가상 머신에서 돌리고 있어서 그런지 더 느린 것 같습니다.
2017년 7월 23일 오후 9:25, Jae-Woong Choe jchoe@korea.ac.kr님이 작성: 참, 나무위키 big file문제 풀렸니? 나도 링크를 찾아 다운로드해보니 처리가 쉽지 않더구나. 세가지 문제가 있는 듯.
최재웅
[{"namespace":"0","title":"!","text":"#redirect \ub290\ub08c\ud45c\n","contributors":["namubot","R:hoon12560"]},{"namespace":"0","title":"!!\uc544\uc557!!","text":"[[\ud30c\uc77c:3444050440.jpg]]\n([[\uc2e0 \uc138\uacc4\uc218\uc758 \ubbf8\uad81 2]]\uc5d0\uc11c \ub72c !!\uc544\uc557!!)\n{{{+1 \uff01\uff01\u3042\u3042\u3063\u3068\uff01\uff01 }}}\n\n[[\uc138\uacc4\uc218\uc758 \ubbf8\uad81 \uc2dc\ub9ac\uc988]]\uc5d0 \uc804\ud1b5\uc73c\ub85c \ub4f1\uc7a5\ud558\ub294 \ub300\uc0ac. [[\uc138\uacc4\uc218\uc758 \ubbf8\uad81 2 \uc81c\uc655\uc758 \uc131\ubc30|2\ud3b8 \uc81c\uc655\uc758 \uc131\ubc30]]\ubd80\ud130 \ub4f1\uc7a5\ud588\uc73c\uba70, \ud6cc\ub96d\ud55c [[\uc0ac\ub9dd \ud50c\ub798\uadf8]]\uc758 \uc608\uc2dc\uc774\ub2e4.\n\n\uc138\uacc4\uc218\uc758 \ubaa8\ud5d8\uac00\ub4e4\uc774 \ud0d0\ud5d8\ud558\ub294 \ub358\uc804\uc778 \uc218\ud574\uc758 \uad6c\uc11d\uad6c\uc11d\uc5d0\ub294 \ucc44\ucde8\/\ubc8c\ucc44\/\ucc44\uad74 \ud3ec\uc778\ud2b8\uac00 \uc788\uc73c\uba70, \uc774\ub97c \uc704\ud55c \ucc44\uc9d1 \uc2a4\ud0ac\uc5d0 \ud22c\uc790\ud558\uba74 \uc81c\ud55c\ub41c \ucc44\uc9d1 \uae30\ud68c\uc5d0 \ubcf4\ub2e4 \ud070 \uc774\ub4dd\uc744 \ucc59\uae38 \uc218 \uc788\ub2e4. \uadf8\ub7ec\ub098 \ubd84\ubc30\ud560 \uc218 \uc788\ub294 \uc2a4\ud0ac \ud3ec\uc778\ud2b8\ub294 \ud55c\uc815\ub41c \ub9cc\ud07c \ucc44\uc9d1 \uc2a4\ud0ac\uc5d0 \ud22c\uc790\ud558\ub294 \ub9cc\ud07c \uc804\ud22c \uc2a4\ud0ac \ub808\ubca8\uc740 \ub0ae\uc544\uc9c0\uac8c \ub41c\ub2e4.\n\n 1.