naver-airush / NAVER-AI-RUSH

41 stars 20 forks source link

hatespeech 데이터셋에서 문장들의 길이 리스트가 따로 제공이 되나요? #71

Closed Clarit7 closed 4 years ago

Clarit7 commented 4 years ago

Informations

CLI

WEB

What is your login ID?

Question 현재 입력된 데이터에서 EOS토큰의 위치를 통해 Sentence lenghts리스트를 얻는 중인데 이것때문에 코드 실행 시간이 너무 늘어나네요 혹시 따로 제공되는게 있는지, 있다면 불러올 방법이 있을까요?

kingheadcat commented 4 years ago

@Clarit7 님의 코드를 확인해 보지 못해 확답은 어렵겠으나, Seq len을 구하는 것때문에 시간이 많이 걸리기는 어려울 것 같습니다. 저는 보통 pytorch를 사용하시는 경우 아래와 같이 tensor로 seq를 구하는데요, 여기서 소비하는 시간은 매우 적을 것 같습니다.

x_len = torch.sum(x != 1, 0) - 2  #  L, N 일 때
Clarit7 commented 4 years ago

@kingheadcat 답변 감사합니다!