radical 部首 embed - Githubissues

Crescentz commented 3 years ago

radical embed 的链接没有是灰色的
另外请问推荐那篇论文的方式，得到汉字部首的emb

shenshen-hungry commented 3 years ago

radical embedding目前还没有训练，被拖延了。。。
就是把偏旁部首当作context的一部分来训练就可以了。也就是在SGNS中用当前的词来预测每个汉字的偏旁部首以及周围的词。

Crescentz commented 3 years ago

谢谢，

在SG的时候，正常单词的loss组成是 pos_v和neg_v(都是单词)，那么加入偏旁部首的话，pos_radical是自己的，neg_radical是单词或者偏旁都可以么，还是压根不要neg_radical.
如果要的话，词语和radical的词表混合还是单独。

shenshen-hungry commented 3 years ago

如果用SGNS（skip-gram with negative sampling），那么最先考虑的就是哪些是中心词（target）哪些是上下文（context）显然为了得到radical向量可以把radical放在target中，也可以放到context中，或者两个都放进去。放在target中并不需要考虑pos和neg的问题，所以这里只讨论当 radical出现在context中的时候。由于SGNS的目标就是让中心词接近正确的上下文（pos），远离随机的上下文（neg），这种简化的目标也就是类比于softmax中分子和分母的关系，即反向传播的时候尽可能让正确label的概率变大。所以可以看到，当radical出现在context中的时候没有理由不出现在neg中。因此，context词表既要包含词语也要包含radical。当然，context词表可以做成两个也没问题，word一个radical一个，两个词表分别计算pos和neg，相当于multi-task的两个softmax。

Crescentz commented 3 years ago

谢谢！！！！！！

Crescentz commented 3 years ago

请问您训练的时候去除标点符号和停用词么

shenshen-hungry commented 3 years ago

没有去除，因为有sub-sampling保证了高频词不会带来过分的影响。

Embedding / Chinese-Word-Vectors

radical 部首 embed #124