Open concistency opened 6 months ago
추가 시 코랩 상 보이는 화면
위 해결방법은, 전문적 지식 없이 여러가지 시도 끝에 해결한 방식입니다.
근본적인 해결책이 아닙니다.
저도 동일한 오류가 발생했고, @concistency 님과 같은 방식(수동 저장 후 경로지정 -> 데이터셋 할당)으로 해결했습니다.
"1. 수동으로 다운로드 및 경로 이동" 에 해당하는 코드는 아래와 같습니다.
!wget https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/train.de.gz
!wget https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/train.en.gz
!wget https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/val.de.gz
!wget https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/val.en.gz
!wget https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/test_2016_flickr.de.gz
!wget https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/test_2016_flickr.en.gz
!gunzip train.de.gz
!gunzip train.en.gz
!gunzip val.de.gz
!gunzip val.en.gz
!gunzip test_2016_flickr.de.gz
!gunzip test_2016_flickr.en.gz
# 정확한 경로와 파일 이름 설정
!mkdir -p .data/multi30k
!mv train.de .data/multi30k/train.de
!mv train.en .data/multi30k/train.en
!mv val.de .data/multi30k/val.de
!mv val.en .data/multi30k/val.en
!mv test_2016_flickr.de .data/multi30k/test2016.de
!mv test_2016_flickr.en .data/multi30k/test2016.en
그 후 아래에 해당하는 실습코드를 실행하니 정상동작 하였습니다.
from torchtext.datasets import Multi30k
train_dataset, valid_dataset, test_dataset = Multi30k.splits(exts=(".de", ".en"), fields=(SRC, TRG))
ㅁ 오류난 행 : train_dataset, valid_dataset, test_dataset = Multi30k.splits(exts = (".de", ".en"), fields = (SRC, TRG)) ㅁ 오류코드 : [ssl: certificate_verify_failed] certificate verify failed: hostname mismatch, certificate is not valid for 'www.quest.dcs.shef.ac.uk'. (_ssl.c:1007)
ㅁ 해결방법 :
오류난 행 위에 아래 코드를 우선 실행:
$import ssl
$ssl._create_default_https_context = ssl._create_unverified_context
2 아래 깃허브 링크에서 다음 파일들을 컴퓨터에 다운로드 .링크 : https://github.com/zaidhassanch/PointerNetworks/tree/6ccd5ebad877c9fbc10ac3af10114b4a6097700b/data/multi30k .다운로드파일 : (총 7개)
코랩 가상환경의 파일 디렉토리에서, 3-1. data 폴더 추가, 3-2. 하위 디렉토리에 multi30k 폴더 추가 3-3 data/multi30k 에 2번에서 다운받은 파일들을 모두 직접 업로드
기존의 오류난 코드를 아래 코드로 대체(마지막에, root = 'data' 추가) train_dataset, valid_dataset, test_dataset = Multi30k.splits(exts = (".de", ".en"), fields = (SRC, TRG), root = 'data')
실행