thunlp / SE-WRL

Improved Word Representation Learning with Sememes
MIT License
195 stars 56 forks source link

muti-embedding for one context word #21

Closed frankness closed 5 years ago

frankness commented 5 years ago

您好,我在复现到时候突然发现了一个问题。如果使用skip-gram来加入sememe信息,对于SAC模型,是否会出现对于一个context_word有多种embedding表示的问题。 比如一句话包含 a b c d e f 六个词。上下文窗口设定为2。 那么在创建训练集时对于target word “c" 会产生训练集[c,a],[c,b],[c,d],[c,e]。当target word移动到d时,会产生训练集[d,b],[d,c],[d,e],[d,f]。可以看出b,e这两个context word对于不同target word会有不同到embedding。这种情况时如何解决的呢。 同理 对于SAT模型,也可能会出现一个target_word有多种embedding表示到问题