luopeixiang / named_entity_recognition

中文命名实体识别(包括多种模型:HMM,CRF,BiLSTM,BiLSTM+CRF的具体实现)
2.14k stars 538 forks source link

关于list和lists的问题 #5

Open beagood opened 5 years ago

beagood commented 5 years ago

您好,请问为什么您在把tag或word读取出来存成List之后,还要在换行的地方将list存进lists。 请问为什么不直接将包括换行符在内的所有tag或word存成list,不用Lists?

Zessay commented 5 years ago

首先,我不是作者,不过想说一下自己的想法。

  1. 首先是因为在HMM计算初始状态概率矩阵的时候,需要考虑每个sentence起始位置的标签,如果全部读成一个list,就只有一个sentence,那么对于起始标签来说,只有一种可能。也就是说把整篇文章当做一句话,这样就人为减少了训练集的数量,得到的结果会非常不准确,至少对于初始状态概率矩阵来说。

  2. LSTM的输入时间序列的格式要求就是(sentence, word, emb_size),这里的sentence也可以理解成batch_size,但是肯定得是多个sentence;如果只封装在一个list中,每个元素都是一个word,这样就只有一个sentence了。

以上是两点个人想法,如果错误还请指教!