Open XingWu01 opened 4 years ago
因为skip-gram模型是根据中心词预测中心词的上下文,这直观上看来,应该“难度”会大于CBOW,那么按理来说会需要更多的语料才能比较好的收敛,那为什么小语料的情况下反而skip-gram表现更好一些呢? 参考资料:http://licstar.net/archives/620
补充:skip-gram 对低频词会更友好一些
因为skip-gram模型是根据中心词预测中心词的上下文,这直观上看来,应该“难度”会大于CBOW,那么按理来说会需要更多的语料才能比较好的收敛,那为什么小语料的情况下反而skip-gram表现更好一些呢? 参考资料:http://licstar.net/archives/620