使用bert之后得到的向量是与原始随机初始化embeding直接拼接了吗？

v-mipeng / LexiconAugmentedNER

Reject complicated operations for incorporating lexicon for Chinese NER.

436 stars 66 forks source link

使用bert之后得到的向量是与原始随机初始化embeding直接拼接了吗？ #55

Open isyinun opened 2 years ago

isyinun commented 2 years ago

使用bert之后得到的向量是与原始随机初始化embeding直接拼接了吗？？还是直接用的bert的输出代替随机初始化的输入向量了？

rtmaww commented 2 years ago

你好，我们是将BERT后得到的向量和原来的词向量（并非随机初始化，是预训练词向量+我们提出的方法得到的词典向量）拼接。

echo-654 commented 2 years ago

@rtmaww 您好，我想请教一个问题，我看代码中有区分word_embedding和char_embedding，其中word（如“政”“志”等）是从下面这个格式的文件中读取到的，政 O 治 O 、 O 经 O 济 O 、 O 而char则是由 for char in word:得到的，在中文的序列标注中，从文件中读到的word已经是不可拆分的，那char及char_embedding的存在的意义是？是为了英文单词吗？