为什么小语料的情况下反而skip-gram表现更好一些呢？

xixiaoyao / CS224n-winter-together

an Open Course Platform for Stanford CS224n (2020 Winter)

Apache License 2.0

494 stars 152 forks source link

Open XingWu01 opened 4 years ago

XingWu01 commented 4 years ago

因为skip-gram模型是根据中心词预测中心词的上下文，这直观上看来，应该“难度”会大于CBOW，那么按理来说会需要更多的语料才能比较好的收敛，那为什么小语料的情况下反而skip-gram表现更好一些呢？参考资料：http://licstar.net/archives/620

XingWu01 commented 4 years ago

补充：skip-gram 对低频词会更友好一些