cw2vec

Learning Character-level Compositionality with Visual Features是每个字为单位进行CNN处理后输入RNN预测标题分类，由于我们是只训练词向量且为了具有可比性采用跟Word2vec相同的架构，所以我对其进行了些修改，采用以词作为单位进行CNN处理，CNN结果预测上下文（类似word2vec）训练词向量。暂时还不知道以词作为单位对CNN效果是否不够好（因为词的长度是不同的，有两字词，四字词等）。如果以字作为单位的话，可以对词的每个字进行CNN处理，然后进行RNN形成词向量，再根据上下文进行训练词向量

stroke-rnn2vec

个人的一些想法，是否可以将字符（如词“大人”的字符13434）进行RNN处理，从而考虑字符的书写顺序，然后结合上下文训练词向量

其他对比论文

对词语进行可视化CNN训练：https://arxiv.org/pdf/1704.04859.pdf?

优化方向

cw2word与Learning Character-level Compositionality with Visual Features感觉都有缺陷，没有考虑字符的书写顺序，可以考虑在字符到词向量层增加一层RNN进行字符书写顺序信息的获取。 17~18年涌现很多关于n元字符的模型(解决新词的表征)训练,包括:

Luka0612 / cw2vec

readme

cw2vec

数据

训练结果对比

目前进展

cw2vec

Character-level2vec

stroke-rnn2vec

其他对比论文

优化方向