Closed toriving closed 5 years ago
세션에 오류가 생겼는데 종류가 안됩니다. State_Of_The_Art/NER/175
안녕하세요 첫번째에러는 도중에 네트워크가 끊겨서 발생했던 에러같습니다 불편을드려서 죄송합니다 지금은 조치를 취했습니다. 두번째 에러도 비슷하게 장비에 문제가생겨서 조치를 취했습니다.
불편을드려서 죄송합니다 적정량의 크레딧을 추가해드렸습니다.
감사합니다.
State_Of_The_Art/NER/179 State_Of_The_Art/NER/180 State_Of_The_Art/NER/181 세션이 오류가 생긴것같습니다. 삭제부탁드립니다. 자꾸 끊기는걸보니 내부 문제가 있는것 같습니다.
또한 submit시에 OOM 에러가나는데 같은 session인데도 checkpoint마다 나는곳이 있고 안나는곳이 있는데 확인부탁드립니다. State_Of_The_Art/NER/162 0 경우는 잘되지만 State_Of_The_Art/NER/162 1 은 잘되지않습니다.
그리고 infer시에 batch size가 현재 2500으로 알고있는데 줄여주실수는 없습니까?
현재 State_Of_The_Art/NER/162 0 과 1은 둘다 한계 메모리에 임박하게 사용중인것으로 보입니다.
infer시에 batch size를 줄일수는 없습니다.
메모리 문제때문이라면, infer함수내에서 들어오는 input데이터를 한번에 inference 하지 않고 나눠서 하는방법이 있을거같습니다.
감사합니다.
모든 세션에서 2 에폭 nsml.save때 이 분과 같은 에러가 나는데요 네트워크 문제인가요? <수정>: 5개중에 4개가 2에폭에서 에러가 났는데 마지막 세션은 안 나네요 랜덤하게 일어나는 문제였던것 같습니다..
트레이닝 중 오류가 뜨면서 중단이됩니다. 항상 그런건 아니지만 몇몇 모델이 중단되어 문의합니다
에러는 아래와 같습니다