xixiaoyao / CS224n-winter-together

an Open Course Platform for Stanford CS224n (2020 Winter)
https://mp.weixin.qq.com/s/GsnhifWkd_lh88d3---4RQ
Apache License 2.0
494 stars 152 forks source link

为什么小语料的情况下反而skip-gram表现更好一些呢? #3

Open XingWu01 opened 4 years ago

XingWu01 commented 4 years ago

因为skip-gram模型是根据中心词预测中心词的上下文,这直观上看来,应该“难度”会大于CBOW,那么按理来说会需要更多的语料才能比较好的收敛,那为什么小语料的情况下反而skip-gram表现更好一些呢? 参考资料:http://licstar.net/archives/620

XingWu01 commented 4 years ago

补充:skip-gram 对低频词会更友好一些