ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
455 stars 130 forks source link

bert fine tuning시 에러 관련 문의드립니다. #78

Closed YuBeomGon closed 4 years ago

YuBeomGon commented 4 years ago

안녕하세요. https://ratsgo.github.io/embedding/ 에 bert fine tuning하는 것을 따라해 보고 있는데요. 아래와 같은 에러가 납니다. 원인이 무엇인지 알수 있나요? 형태소 분석을 안한 데이터를 사용하였고, label을 줘도 안줘도 똑같이 에러가 발생합니다. 감사합니다

INFO:tensorflow:tokenize corpus : /notebooks/embedding/data/processed_ratings_train.txt > /notebooks/embedding/data/processed_ratings_train.txt.bert-tokenized Traceback (most recent call last): File "models/tune_utils.py", line 871, in model_save_path=args.model_save_path) File "models/tune_utils.py", line 441, in init model_name="bert", vocab_fname=vocab_fname, model_save_path=model_save_path) File "models/tune_utils.py", line 268, in init self.train_data, self.train_data_size = self.load_or_tokenize_corpus(train_corpus_fname, tokenized_train_corpus_fname) File "models/tune_utils.py", line 285, in load_or_tokenize_corpus sentence, label = line.strip().split("\u241E") ValueError: not enough va sentence, label = line.strip().split("\u241E") ValueError: not enough values to unpack (expected 2, got 1) lues to unpack (expected 2, got 1) ~

ratsgo commented 4 years ago

@YuBeomGon 님 관심 가져주셔서 감사합니다. 해당 코드가 정상 동작하려면 processed_ratings_train.txt 파일의 각 라인이 sentence␞label 형태여야 합니다. 예컨대 다음과 같습니다.

아 더빙.. 진짜 짜증나네요 목소리␞0
흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나␞1
너무재밓었다그래서보는것을추천한다␞0

도서에 제시된 도커 환경에서 수행 결과 정상 동작함을 확인하였습니다. 만약 문제가 계속 발생할 경우 도커 환경 사용을 추천해 드립니다. 감사합니다.