bit2r / bitTA

기능이 bitNLP로 이관되었습니다. bitNLP를 사용하시기 바랍니다.
https://r2bit.com/bitNLP/
GNU General Public License v2.0
10 stars 0 forks source link

Mecab for Windows 가 64bit 가 아니면 치명적인 오류가 발생하네요... #5

Closed statkclee closed 2 years ago

statkclee commented 2 years ago

RMeCab의 64 bit 버전이 설치되지 않은 듯... 이런 경우 치명적인 오류가 발생합니다.

오류 스크린샷

statkclee commented 2 years ago

MeCab 0.996 64bit version (旧) 다운로드받아 exe 파일을 설치하니 C:\Program Files\MeCab 으로 기본 설정되어 있습니다.

이후 치명적인 오류가 사라졌습니다.

> remotes::install_github("IshidaMotohiro/RMeCab")
...
> library(RMeCab)
You need 64 bit version of MeCab for Winndows, with UTF8 dictionary
Dowlnload it from 'https://github.com/ikegami-yukino/mecab/releases/tag/v0.996'
statkclee commented 2 years ago

mecab-ko-dic-2.1.1-20180720-msvc-2 버전 MeCab 을 설치한 듯 보입니다...

왜냐하면... MeCab 0.996 64bit version (旧) 다운로드받아 exe 파일을 설치하고 RMeCab R 패키지를 설치하면 다음과 같은 오류가 납니다... 당연하겠지만... 한국어에 대한 처리 기능이 없어 그런 것이 아닌가 싶기도 합니다..

따라서, bitTA 패키지 설치에 대해 이전 형태소 분석기 MeCab 에 대해 명확히 할 필요가 있는 듯 싶습니다.

> library(bitTA)
> bitTA::morpho_mecab("아버지가 방에 들어가신다.")
character(0)
euriion commented 2 years ago

Mecab의 일본어 버전과 한국의 은전한닢(MecabKo)는 다른데 일본어만 있는 몇가지 처리를 제거하고 한국어만 필요한 코드를 추가한 한국어버전이기 때문에 한국어, 일본어 버전의 코어 모듈이 동일하지 않습니다. 수년전 일본 와세다 대학의 텍스트마이닝 박사과정생들에게 확인받은 사항입니다. 그래서 코어모듈과 데이터의 쌍을 잘 맞춰야하는 문제가 있습니다. Mecab의 Windows 버전은 64bit 버전이 제대로 작동안하는 고질적인 문제가 예전부터 있었습니다. 32비트 버전을 사용해야 할 수 있습니다. Mecab 빌드가 Windows에서 하기에는 작업시간이 많이 걸리고 조금 까다로운 경향이 있습니다.

choonghyunryu commented 2 years ago

README에 Windows/Linux에서 Mecab과 사전을 설치하는 방법을 정리해 놓겠습니다. Windows에서는 컴파일된 msvc 버전이 있더군요. Windows가 싫지만, 다수가 사용하는 환경이라 어쩔 수 없군요.

일반 DESCRIPTION 파일에 다음을 추가하는 것부터 시작합니다.

SystemRequirements:
  mecab-ko (https://bitbucket.org/eunjeon/mecab-ko/src/master/) and mecab-ko-dic 
 (https://bitbucket.org/eunjeon/mecab-ko-dic/src/master/)
statkclee commented 2 years ago

윈도우에서는 치명적오류로 MeCab 설치에 실패하고 있습니다. 아무래도 bitTA가 RMeCab에 의존하고 있는데... RMeCab는 MeCab 64bit에 의존하고 있어... MeCab-ko 와 연결시킬 수 있는 연결고리가 있어야... 될 듯 싶습니다.

맥은 깔끔하게 설치되네요 !!! 리눅스도 비슷할 듯 싶기는 한데... 향후 설치과정을 단순화해서 자동화시킬 필요가 있어 보입니다. https://r2bit.com/book_tm/install-stacks.html

choonghyunryu commented 2 years ago

먼저 맥과 리눅스는 mecab-ko와 mecab-ko-dic을 설치하는 함수를 만들면 될 것 같습니다. RStudio에서 만든 tensorflow 패키지가 install_tensorflow() 함수로 tensorflow를 설치하는 것 처럼 install_mecab-ko() 함수를 만들어 보겠습니다.

choonghyunryu commented 2 years ago

install_mecab_ko() 함수를 추가했습니다. Linux, Mac 환경에서 mecab-ko와 mecab-ko-dic을 설치합니다. MS-Windows는 아직 미구현입니다. 좀 더 최선의 솔루션을 찾아봐야합니다. Linux, Mac 환경의 테스트 부탁합니다.

choonghyunryu commented 2 years ago

해당 이슈 해결