yskim0 / Handlang

DSC EWHA Handlang 팀 - 딥러닝 모델을 이용한 수화 교육 웹 어플리케이션(American Sign Language Education by using deep learning model)
7 stars 6 forks source link

server 옮기면서 training 다시 시작했을 때 에러들 #31

Open yskim0 opened 4 years ago

yskim0 commented 4 years ago

(1) 수동으로 체크포인트 폴더를 만들어서 gcp에서 하던 체크포인트 하나 옮김

python3 flow —model ./cfg/handlang-small.cfg —labels ./labels.txt —trainer adam —dataset ./Data/handlang-data-1-400/dataset/ —annotation ./Data/handlang-data-1-400/annotations/ —train —summary ./logs —batch 20 —epoch 2000 —save 200 —keep 200 —lr 1e-04 —gpu 1.0 —load 105435

=> 못불러옴 비슷하게 load ./handlang-small-105435 load ./handlang-small-105435.meta 다 안됨

(2) gcp로 하던거 올바른 체크포인트에서 savepb하고 수동으로 built-graph 디렉토리 만들어서 옮김

python3 flow —pbLoad ./built-graph/handlang-small.pb —metaLoad ./built-graph/handlang-small.meta —labels ./labels.txt —trainer adam —dataset ./Data/handlang-data-1-400/dataset/ —annotation ./Data/handlang-data-1-400/annotations/ —train —summary ./logs —batch 20 —epoch 2000 —save 200 —keep 200 —lr 1e-04 —gpu 1.0

=> ValueError: No variables to optimize. 에러. 비슷하게 built-graph 폴더 지우고 그냥 밖(./handlang-small.pb)에서 했을 때도 똑같은 에러 발생

(3) meta가 어쨌든 weights에 대응하는 거니까 cfg, meta 섞어봄.

python3 flow —model ./cfg/handlang-small.cfg  —metaLoad ./handlang-small.meta —labels ./labels.txt —trainer adam —dataset ./Data/handlang-data-1-400/dataset/ —annotation ./Data/handlang-data-1-400/annotations/ —train —summary ./logs —batch 20 —epoch 2000 —save 200 —keep 200 —lr 1e-04 —gpu 1.0

=> 에러는 뜨지 않으나 그냥 처음부터 train 하는 결과와 같음.

yskim0 commented 4 years ago

loss 10아래로 떨어질때까지 lr=1e-02

python3 flow —model ./cfg/handlang-small.cfg —labels ./labels.txt —trainer adam —dataset ./Data/handlang-data-1-400/dataset/ —annotation ./Data/handlang-data-1-400/annotations/ —train —summary ./logs —batch 20 —epoch 2000 —save 200 —keep 200 —lr 1e-02 —gpu 1.0
yskim0 commented 4 years ago

nohup python3 flow --model ./cfg/handlang-small.cfg --labels ./labels.txt --trainer adam --dataset ./Data/handlang-data-1-400/dataset/ --annotation ./Data/handlang-data-1-400/annotations/ --train --summary ./logs --batch 20 --epoch 2000 --save 200 --keep 200 --lr 1e-02 --gpu 1.0 &

pid == 2708

sonsuhyune commented 4 years ago

help.py에서 retore함수에 인자로 넘겨주는 path가 잘못되어 있어서 계속 파일이 없다는 에러가 떴었음 위 코드 변경과 함께 loader.py에서 .meta 확장자가 두번 붙지 않도록 코드 수정

이렇게 하니까, Dataloss 에러가 남 --> 위에서 바꿔준 코드(확장자를 붙여준 부분에 대한)오류 인 것 같다..

sonsuhyune commented 4 years ago

ValueError: The passed save_path is not a valid checkpoint: 이 오류는 해결

DataLossError (see above for traceback): Unable to open table file ckpt/handlang-small-105435.meta: Data loss: not an sstable (bad magic number): perhaps your file is in a different file format and you need to use a different restore operator? 이제 이 오류....파일이 손상되거나 하지는 않았는지 확인해봐야할듯

sonsuhyune commented 4 years ago

오류 해결함!!! ML 폴더에 해결 과정 push 했음

yskim0 commented 4 years ago

nohup python3 flow --model cfg/handlang-small.cfg --backup 'ckpttt/' --train --dataset "Data/handlang-data-1-400/dataset/" --annotation "Data/handlang-data-1-400/annotations/" --batch 20 --epoch 500 --save 1000 --keep 1000 --lr 1e-05 --gpu 1.0 --load -1 & [2] 2196