[week3] Noise Contrastive Estimation (NCE)란 무엇일까?

TB2715 commented 2 years ago

Introduction, 2페이지 상단에

In addition, we present a simplified variant of Noise Contrastive Estimation (NCE) [4] for training the Skip-gram model that results in faster training and better vector representations for frequent words, compared to more complex hierarchical softmax that was used in the prior work [8].

라고 Noise Contrastive Estimation(NCE) 개념이 등장합니다. NCE란 어떤 개념일까요?

TB2715 commented 2 years ago

제가 지금까지 찾은 내용을 정리합니다. (논문..읽어보려다 55페이지인거 보고 구글 검색으로 도망쳤습니다..)

CBOW와 Skip-gram 모델에서 사용하는 비용 계산 알고리즘
전체 데이터셋에 대해 softmax 함수를 적용하는 것이 아닌, 샘플링으로 추출한 일부에 대해서만 적용하는 방법
- 단어간의 관계를 파악할 수 있는 representation을 하기 위한 모델인 word embedding model이 representation을 학습하기 위해선 각 단어를 embedding 한 context vector를 가지고 있어야 하는데, 단어의 개수 = class 의 개수가 되어 수십만개의 벡터를 가져야 함
- 이를 해결하고자, 단어의 일부만을 sampling하여 target 단어 class인 벡터에 대한 확률값만을 계산하여 cross_entropy를 계산
일반적으로 단어 개수가 많을 때 사용하고, NCE를 사용할 경우 문제를 (실제 분포에서 얻은 샘플)과 (인공적으로 만든 답음 분포에서 얻은 샘플)을 구별하는 이진 분류 문제로 바꿀 수 있음

참고: pythonkim.tistory
참고: 고려대 DMQA 연구실 세미나 영상
논문: Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics

혹시 제가 잘못 작성했거나, 추가로 아시는 사항 있으시다면 추가 작성 부탁드립니다!

kimcando commented 2 years ago

현지님 제가 논문을 아직 읽지도 못했곸ㅋㅋㅋ그래서 이슈만 봤는데.. relational extraction 찾아보니까 또 저 워딩이 나오네요. 설명해주셨듯 단어 갯수가 많을 때 뭔가 샘플링이 필요할 때 쓰는 방식인가보네요

kimcando commented 2 years ago

아아 논문 읽고 다시보니까 좀더 이해가 되는데 아래 부분이 이해가 안돼서 고민해봐야할 것 같아요 ㅠ

일반적으로 단어 개수가 많을 때 사용하고, NCE를 사용할 경우 문제를 (실제 분포에서 얻은 샘플)과 (인공적으로 만든 답음 분포에서 얻은 샘플)을 구별하는 이진 분류 문제로 바꿀 수 있음

sujeongim commented 2 years ago

http://incredible.ai/nlp/2017/11/25/Word2Vec-Noise-Constrastive-Estimation/ 해당 링크가 설명을 좀 자세히 해둔 것 같습니다! 저도 아직 제대로 못 읽어보긴 했는데..ㅠㅜ 읽고 이해되면 추가 댓글 달겠습니다..!

kimcando commented 2 years ago

오호 수식파티네용;D 공유 감사합니답 수정님

kimcando / BoostcampAITech3-PaperReading-Embedding

[week3] Noise Contrastive Estimation (NCE)란 무엇일까? #14

논문: Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics