Open yskim0 opened 4 years ago
loss 10아래로 떨어질때까지 lr=1e-02
python3 flow —model ./cfg/handlang-small.cfg —labels ./labels.txt —trainer adam —dataset ./Data/handlang-data-1-400/dataset/ —annotation ./Data/handlang-data-1-400/annotations/ —train —summary ./logs —batch 20 —epoch 2000 —save 200 —keep 200 —lr 1e-02 —gpu 1.0
nohup python3 flow --model ./cfg/handlang-small.cfg --labels ./labels.txt --trainer adam --dataset ./Data/handlang-data-1-400/dataset/ --annotation ./Data/handlang-data-1-400/annotations/ --train --summary ./logs --batch 20 --epoch 2000 --save 200 --keep 200 --lr 1e-02 --gpu 1.0 &
pid == 2708
help.py에서 retore함수에 인자로 넘겨주는 path가 잘못되어 있어서 계속 파일이 없다는 에러가 떴었음 위 코드 변경과 함께 loader.py에서 .meta 확장자가 두번 붙지 않도록 코드 수정
이렇게 하니까, Dataloss 에러가 남 --> 위에서 바꿔준 코드(확장자를 붙여준 부분에 대한)오류 인 것 같다..
ValueError: The passed save_path is not a valid checkpoint: 이 오류는 해결
DataLossError (see above for traceback): Unable to open table file ckpt/handlang-small-105435.meta: Data loss: not an sstable (bad magic number): perhaps your file is in a different file format and you need to use a different restore operator? 이제 이 오류....파일이 손상되거나 하지는 않았는지 확인해봐야할듯
오류 해결함!!! ML 폴더에 해결 과정 push 했음
nohup python3 flow --model cfg/handlang-small.cfg --backup 'ckpttt/' --train --dataset "Data/handlang-data-1-400/dataset/" --annotation "Data/handlang-data-1-400/annotations/" --batch 20 --epoch 500 --save 1000 --keep 1000 --lr 1e-05 --gpu 1.0 --load -1 & [2] 2196
(1) 수동으로 체크포인트 폴더를 만들어서 gcp에서 하던 체크포인트 하나 옮김
=> 못불러옴 비슷하게
load ./handlang-small-105435
load ./handlang-small-105435.meta
다 안됨(2) gcp로 하던거 올바른 체크포인트에서 savepb하고 수동으로 built-graph 디렉토리 만들어서 옮김
=>
ValueError: No variables to optimize.
에러. 비슷하게 built-graph 폴더 지우고 그냥 밖(./handlang-small.pb)
에서 했을 때도 똑같은 에러 발생(3) meta가 어쨌든 weights에 대응하는 거니까 cfg, meta 섞어봄.
=> 에러는 뜨지 않으나 그냥 처음부터 train 하는 결과와 같음.