kimcando / BoostcampAITech3-PaperReading-Embedding

Boostcamp AI Tech 3rd / Basic Paper reading w.r.t Embedding
13 stars 3 forks source link

[Week3] Test data set 구성은 어떻게 하는 걸까요? 그리고 test data 자체의 의의가 궁금합니다. #15

Open greenare opened 2 years ago

greenare commented 2 years ago

이번 페이퍼는 좀 기술적인 요소가 많아서 물어볼 거리가 적네요 ㅜ

지난 skip gram 때는 그냥 넘어갔는데 문득 들은 생각이 test data를 대체 어떻게 만들었을까 입니다. (글 올리고나서 보니 비슷한 질문을 소연님이 해주셨네요)

논문에 보면 어떻게 만들었다 얘기는 없고 자기들이 원래 있던 셋에서 발전시켰다 나옵니다. To evaluate the quality of the phrase vectors, we developed a test set of analogical reasoning tasks that contains both words and phrases. 만약 train data set에 있는 단어들을 추출해서 휴리스틱한 방식으로 test data를 만든다고 하면 존재 의의가 조금 궁금합니다.. 그냥 word2vec이 주어진 dataset에서 단어들간의 관계를 잘 만들어요~ 이게 끝이면 완전 새로운 데이터에 대해선 완전히 능력이 없는 셈이 되는거란 느낌이 듭니다.

예를 들어서 어떤 제품에 대해 긍정적인 반응에 대한 글로 학습을 쭉 한 다음에 부정적인 반응에 대한 글로 test를 한다면 전혀 의미가 없을 것 같은데.. 대체 test data를 어떻게 구성했길래 이 당시에 저처럼 생각하는 사람들을 납득시켰을까요?

greenare commented 2 years ago

https://aclweb.org/aclwiki/Google_analogy_test_set_(State_of_the_art)

질문과는 조금은 동떨어진 내용이긴한데 이 test set 자체에 대해 부정적인 의견이 있어 첨부합니다.

This test set is not balanced: 20-70 pairs per category, different number of semantic and morphological relations. See other sets at Analogy (State of the art). In the semantic part, country:capital relation accounts for over 50% of all semantic questions. Researchers usually report only the average accuracy for all semantic/syntactic questions, but there is a lot of variation for individual relations - between 10.53% and 99.41% [7], also depending on parameters of the model [8]. Since the test is not balanced, the above results could be flattering to the embeddings, and averaging the mean scores for each subcategory would yield lower results. Accuracy also depends on the method with which analogies are solved [9] [10]. Set-based methods[11] considerably outperform pair-based methods, showing that models do in fact encode much "missed" information.

kimcando commented 2 years ago

와 아예 이런게 있는게 신기하네요..