Open merliongolden opened 2 years ago
%UsersProfile%.wslconfig파일에서 Memory 8GB를 16GB로 늘리니 잘되기는 합니다. 시간이 엄청오래 걸리네요. 아래와 같이 설정을 했는데도 docker 실행해서 보면 8GB mem, 2GB swap mem에서 16GB mem, 4GB swap mem로 늘어남 swap mem -1은 무제한의미 config/train/ds2_train.yaml에서 use_cuda: true -> use_cuda: false로 수정(NVIDIA RTX 3080 Ti 구매후 수정해서 결과확인 예정), 현재는 i5 UHD Graphics 630) save_result_every: 1000 -> 10 checkpoint_every: 5000 -> 300 resume: false -> 두개의 장치에서 시험하고 있기 때문에 Surface Pro 8은 5시간 또는 11시간 실행중 Killed, resume: true로 수정, 기존 checkpoint.py에 버그가 있는듯 해서 수정함 kospeech/checkpoint/checkpoint.py 파일에서 수정후 resume: true시 정상동작 확인함. Surface Pro 8에서 리줌 잘됨. 금일 i9-12세대, 64GB, ASUS, 1TB SSD, RTX 3080 Ti에서 데이터셋 트레이닝시 얼마나 걸리는지 올리겠습니다. 동시에 디딤365서버사용(Tesla V100 그래픽카드 4장) 얼마걸리는지도 시험해보겠습니다. 가능하면요. STT -> TTS 시간이 무척 많이 들어가네요.
[중략] def get_latest_checkpoint(self): """ returns the path to the last saved checkpoint's subdirectory. Precondition: at least one checkpoint has been made (i.e., latest checkpoint subdirectory exists). """ checkpoints_path = sorted(os.listdir(self.LOAD_PATH), reverse=True)[0] sorted_listdir = sorted(os.listdir(os.path.join(self.LOAD_PATH, checkpoints_path)), reverse=True) print("sorted_listdir[0]= ", sorted_listdir[0]) print("sorted_listdir[1]= ", sorted_listdir[1])
checkpoints_path = os.path.join(checkpoints_path, sorted_listdir[1])
print("checkpoints_path: ", checkpoints_path)
checkpoints_path = os.path.join(self.LOAD_PATH, checkpoints_path)
print("Checkpoints_path: ", checkpoints_path)
return checkpoints_path
C:\Users\username>type .wslconfig [wsl2] memory=32GB swap=-1
Title
Description
python ./bin/main.py model=ds2 train=ds2_train train.dataset_path=$DATASET_PATH
Linked Issues