ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
455 stars 130 forks source link

unzip error #47

Closed embed-Rayn closed 4 years ago

embed-Rayn commented 4 years ago

image 코드 4-1을 실행 시 이렇게 나오는데 몇몇 gdrive 파일이 손상되지 않았나 의심이 갑니다. 파일을 다운로드 후 unzip 시 zipfile을 찾을 수 없다고 나오고 이 외에도 몇 파일은 이런 에러가 발생했는데 제가 실수를 하고 있는지 알려주세요

ratsgo commented 4 years ago

@embed-Rayn 님 안녕하세요. 부족한 책에 관심 가져주셔서 감사드립니다. 제가 우분투와 MacOS 두 환경에서 각각 ratsgo/embedding-gpu, ratsgo/embedding-cpu 도커 이미지에서 체크한 결과 모두 이상이 없음을 확인하였습니다. 혹시 코드 업데이트를 하셨는지요. 다음처럼 한번 실행해 보시고 이상이 있으면 자세한 실행환경을 공유 부탁드리겠습니다.

git pull origin master
bash preprocess.sh dump-tokenized
embed-Rayn commented 4 years ago

bash preprocess.sh dump-word-embeddings bash preprocess.sh dump-sentence-embeddings bash preprocess.sh dump-tokenized bash preprocess.sh dump-processed 등 몇개의 명령에서 unzip에러가 발생했고 bash 파일의 rm 명령어를 지우고 다운 받은 .zip파일을 들어가보니 아래와 같은 html 문서가 들어 있었습니다. <!DOCTYPE html>Google Drive - Virus scan warning

Google Drive can't scan this file for viruses.

tokenized.zip (832M) is too large for Google to scan for viruses. Would you still like to download this file?

Download anyway

파일이 커서 구글에서 바이러스 검사를 수행할 수 없다는 내용인데... 어찌 해결 할 방법 없을까요? AWS로 했을 땐 잘 되었는데 회사 서버로 하니 이런 상황이 발생하네요.

ratsgo commented 4 years ago

@embed-Rayn 님 안녕하세요. 구글 드라이브에서 대용량 파일을 다운로드할 때 바이러스 검사를 회피하고 바로 다운로드 받는 코드를 클론 받아 사용해보시는 건 어떨까요? 수행 방법은 다음과 같습니다.

설치

git clone https://github.com/chentinghao/download_google_drive.git
pip install tqdm

수행 예시

cd download_google_drive
# python download_gdrive.py file_url_id save_file_path
python download_gdrive.py 1Few7-Mh3JypQN3rjnuXD8yAXrkxUwmjS processed_blog.txt

다음은 본 도서에서 제공하고 있는 리소스 파일들의 구글 드라이브 id와 파일 이름 리스트입니다. 참고가 되셨으면 좋겠습니다.

종류 google drive id file-name
ratsgo blog (raw) 1Few7-Mh3JypQN3rjnuXD8yAXrkxUwmjS processed_blog.txt
processed corpus 1kUecR7xO7bsHFmUI6AExtY5u2XXlObOG processed.zip
tokenized corpus 1Ybp_DmzNEpsBrUKZ1-NoPDzCMO39f-fx tokenized.zip
word embeddings 1FeGIbSz2E1A63JZP_XIxnGaSRt7AhXFf word-embeddings.zip
sentence embeddings 1jL3Q5H1vwATewHrx0PJgJ8YoUCtEkaGW sentence-embeddings.zip
ELMo 1go2JtVeYBOjkBCWJWk8inkSpVg7VfFVp elmo.zip
BERT(1) 1DEpdPRJc-kjmeU_5pgMPzTOuH8qrwIzY bert_config.json
BERT(2) 12cCImHAM97lXb427vCl_3MXOY7bxNlYe bert_model.ckpt.data-00000-of-00001
BERT(3) 10jD8gN94Vr_5XMftheJB7n0IBm-pjdwd bert_model.ckpt.index
BERT(4) 1pLNR2xL17HCLD3GmWCLls7a9xhhDIdw2 bert_model.ckpt.meta
BERT(5) 1LkyTFPeoTvWoO5XP0bDi3Af53XPCLE59 vocab.txt

일일이 치기 번거로우시면 preprocess.sh 스크립트 내에 gdrive_download 부분을 python download_google_drive/download_gdrive.py로 바꿔서 써보는 것도 좋을 것 같습니다.