Closed Crescentz closed 3 years ago
radical embedding目前还没有训练,被拖延了。。。
就是把偏旁部首当作context的一部分来训练就可以了。也就是在SGNS中用当前的词来预测每个汉字的偏旁部首以及周围的词。
谢谢,
如果用SGNS(skip-gram with negative sampling),那么最先考虑的就是哪些是中心词(target)哪些是上下文(context)显然为了得到radical向量可以把radical放在target中,也可以放到context中,或者两个都放进去。放在target中并不需要考虑pos和neg的问题,所以这里只讨论当 radical出现在context中的时候。由于SGNS的目标就是让中心词接近正确的上下文(pos),远离随机的上下文(neg),这种简化的目标也就是类比于softmax中分子和分母的关系,即反向传播的时候尽可能让正确label的概率变大。所以可以看到,当radical出现在context中的时候没有理由不出现在neg中。因此,context词表既要包含词语也要包含radical。当然,context词表可以做成两个也没问题,word一个radical一个,两个词表分别计算pos和neg,相当于multi-task的两个softmax。
谢谢!!!!!!
请问您训练的时候去除 标点符号 和 停用词么
没有去除,因为有sub-sampling保证了高频词不会带来过分的影响。