Closed embed-Rayn closed 4 years ago
@embed-Rayn 님 안녕하세요. 부족한 책에 관심 가져주셔서 감사드립니다. 제가 우분투와 MacOS 두 환경에서 각각 ratsgo/embedding-gpu
, ratsgo/embedding-cpu
도커 이미지에서 체크한 결과 모두 이상이 없음을 확인하였습니다. 혹시 코드 업데이트를 하셨는지요. 다음처럼 한번 실행해 보시고 이상이 있으면 자세한 실행환경을 공유 부탁드리겠습니다.
git pull origin master
bash preprocess.sh dump-tokenized
bash preprocess.sh dump-word-embeddings bash preprocess.sh dump-sentence-embeddings bash preprocess.sh dump-tokenized bash preprocess.sh dump-processed 등 몇개의 명령에서 unzip에러가 발생했고 bash 파일의 rm 명령어를 지우고 다운 받은 .zip파일을 들어가보니 아래와 같은 html 문서가 들어 있었습니다. <!DOCTYPE html>
파일이 커서 구글에서 바이러스 검사를 수행할 수 없다는 내용인데... 어찌 해결 할 방법 없을까요? AWS로 했을 땐 잘 되었는데 회사 서버로 하니 이런 상황이 발생하네요.
@embed-Rayn 님 안녕하세요. 구글 드라이브에서 대용량 파일을 다운로드할 때 바이러스 검사를 회피하고 바로 다운로드 받는 코드를 클론 받아 사용해보시는 건 어떨까요? 수행 방법은 다음과 같습니다.
설치
git clone https://github.com/chentinghao/download_google_drive.git
pip install tqdm
수행 예시
cd download_google_drive
# python download_gdrive.py file_url_id save_file_path
python download_gdrive.py 1Few7-Mh3JypQN3rjnuXD8yAXrkxUwmjS processed_blog.txt
다음은 본 도서에서 제공하고 있는 리소스 파일들의 구글 드라이브 id와 파일 이름 리스트입니다. 참고가 되셨으면 좋겠습니다.
종류 | google drive id | file-name |
---|---|---|
ratsgo blog (raw) | 1Few7-Mh3JypQN3rjnuXD8yAXrkxUwmjS | processed_blog.txt |
processed corpus | 1kUecR7xO7bsHFmUI6AExtY5u2XXlObOG | processed.zip |
tokenized corpus | 1Ybp_DmzNEpsBrUKZ1-NoPDzCMO39f-fx | tokenized.zip |
word embeddings | 1FeGIbSz2E1A63JZP_XIxnGaSRt7AhXFf | word-embeddings.zip |
sentence embeddings | 1jL3Q5H1vwATewHrx0PJgJ8YoUCtEkaGW | sentence-embeddings.zip |
ELMo | 1go2JtVeYBOjkBCWJWk8inkSpVg7VfFVp | elmo.zip |
BERT(1) | 1DEpdPRJc-kjmeU_5pgMPzTOuH8qrwIzY | bert_config.json |
BERT(2) | 12cCImHAM97lXb427vCl_3MXOY7bxNlYe | bert_model.ckpt.data-00000-of-00001 |
BERT(3) | 10jD8gN94Vr_5XMftheJB7n0IBm-pjdwd | bert_model.ckpt.index |
BERT(4) | 1pLNR2xL17HCLD3GmWCLls7a9xhhDIdw2 | bert_model.ckpt.meta |
BERT(5) | 1LkyTFPeoTvWoO5XP0bDi3Af53XPCLE59 | vocab.txt |
일일이 치기 번거로우시면 preprocess.sh
스크립트 내에 gdrive_download 부분을 python download_google_drive/download_gdrive.py
로 바꿔서 써보는 것도 좋을 것 같습니다.
코드 4-1을 실행 시 이렇게 나오는데 몇몇 gdrive 파일이 손상되지 않았나 의심이 갑니다. 파일을 다운로드 후 unzip 시 zipfile을 찾을 수 없다고 나오고 이 외에도 몇 파일은 이런 에러가 발생했는데 제가 실수를 하고 있는지 알려주세요