Naver-AI-Hackathon / AI-Vision

67 stars 34 forks source link

nsml.load 함수 관련 #90

Open doublejtoh opened 5 years ago

doublejtoh commented 5 years ago
nsml model ls Visionuery/ir_ph1_v2/38
명령어를 통해서 checkpoint 파일(0) 이 존재하는 것을 확인하고, bind_model함수에서 load함수를 정의해준뒤 nsml.bind(load=load_fn)을 통해 바인딩 도 아래와 같이 해주었습니다.
def bind_model(sess):
    def save(dir_name):
        os.makedirs(dir_name, exist_ok=True)
        saver.save(sess, dir_name + "/" , global_step=model.global_epoch)
        print('model saved!')

    def load(file_path):
        ckpt = tf.train.get_checkpoint_state(file_path + "/")
        if ckpt and tf.train.checkpoint_exists(ckpt.model_checkpoint_path):
            saver.restore(sess, ckpt.model_checkpoint_path)
        else:
            raise NotImplementedError('No Checkpoint found.')
        print('model loaded!')

    nsml.bind(save=save, load=load, infer=infer)
그 다음에, 아래의 코드를 run해보았습니다.
nsml.load(checkpoint='0', session='Visionuery/ir_ph1_v2/38')
이후, 아래의 에러가 발생합니다. `Traceback (most recent call last): File "main.py", line 202, in callback=callback_fn_train, File "/app/model.py", line 306, in train nsml.load(checkpoint=config.checkpoint, session=config.session) File "/app/nsml/client.py", line 434, in load raise KeyError('No model: {}'.format(str(checkpoint))) KeyError: 'No model: Visionuery/ir_ph1_v2/38/nsml_model/0,'` 또한, nsml submit 시에도 Error: Error occurred while loading model 에러가 발생합니다.. 해당 에러의 원인을 찾을 수 있을까요?
Hackoperation commented 5 years ago

argument를 주실때 다음과 같이 '0, ' 으로 입력해서 모델을 못찾고있는것같은데요,

--epochs 1 --checkpoint 0, --session Visionuery/ir_ph1_v2/38 --pause 1 --iteration 0

해당 부분 수정후에 다시 실행해보시기바랍니다.

감사합니다 :)