nlp-research / bilm-tf

bilm-tf for nlp-research
0 stars 1 forks source link

bilm-tf(ELMO) 학습데이터 전처리 #1

Closed bart2001 closed 6 years ago

bart2001 commented 6 years ago

build_data.py를 통해서 학습데이터 전처리

  1. 정규화

    • 한자(H), 일본어(J), 영어(A), 숫자(N) 치환
  2. BIO 태깅

    • 자소로 분리하였을 때도 BIO 태그 주가
    • ex) 밥 먹자. => Bㅂㅏㅂ Bㅁㅓㄱ Iㅈㅏ I.
bart2001 commented 6 years ago

preprocess.py 및 build_data.py에 적용 완료