naver / nlp-challenge

NLP Shared tasks (NER, SRL) using NSML
177 stars 68 forks source link

data_loader + necessary.pkl 문의 #31

Open eagle705 opened 5 years ago

eagle705 commented 5 years ago

안녕하세요, NER에서 현재 전처리를 data_loader 파일단에서 하고있는데요.

테스트 데이터를 돌릴때 제출한 data_loader와 같은걸 사용하는건지 궁금합니다.

NSML file system 내역에 data_loader가 testset과 같이 있길래 확인차 여쭙니다.

https://hack.nsml.navercorp.com/filesystem/NER

추가로, 주어진 necessary.pkl과 train data로 새로 생성한 necessary.pkl이 다른 점(용량이나, 내용이나)을 발견했는데요.

같은데이터로 만든게 아닌가요~?

nsml-admin commented 5 years ago

안녕하세요.

  1. 테스트를 돌릴때 baseline에 있는 data_loader와 같은걸 사용합니다. 하지만 유저가 data_loader를 수정한다고해서 덮어쓰진않습니다.

  2. necessary.pkl 은 서로 다릅니다. 예제 코드에 올라간 necessary.pkl은 전체 데이터로 만든 파일이고, 기본 세팅으로 실행하면 train_lines 따라 다르게 만들어집니다.

감사합니다

eagle705 commented 5 years ago

@nsml-admin 감사합니다. 2번 답변에서 "전체 데이터"라 하시면, training data의 전체를 말씀하시는건지, test도 포함인건지 궁금합니다. training data의 전체라고 생각하지만, 실제로 train_lines를 수정해서 training data의 돌렸을때 파일크기나, 사전 내용이 기존에 주신것과 달라서 문의드립니다.

nsml-admin commented 5 years ago

training data만 사용하였고 약간의 차이는 생성했을때의 파라미터의 차이라고생각하시면 됩니다!

감사합니다.