yanshao9798 / tagger

A Joint Chinese segmentation and POS tagger based on bidirectional GRU-CRF
151 stars 44 forks source link

',' is tagged as NUM #9

Closed GabrielLin closed 6 years ago

GabrielLin commented 6 years ago

I trained the model with python tagger.py train -p ud1 -t train.txt -d dev.txt -wv -cp -rd -gru -m model_ud1 -emb Embeddings/glove.txt

and test it with

《红楼梦》,中国古典长篇章回小说,是中国四大小说名著之一。《红楼梦》书内提及的书名,还有《情僧录》、《风月宝鉴》、《金陵十二钗》、《金玉缘》,乾隆四十九年甲辰梦觉主人序本题为《红楼梦》。1791年在第一次活字印刷后。故事是由女娲补天时所剩下的一块石头开始,因此又名《石头记》。 《西游记》,中国古典神怪小说,中国“四大名著”之一。成书于16世纪明朝中叶,一般认为作者是明朝的吴承恩。书中讲述唐三藏师徒四人西天取经的故事,表现了惩恶扬善的古老主题,也有观点认为西游记是权力场讽刺小说。 《西游记》自问世以来,在中国及世界各地广为流传,被翻译成多种语言。

The result are:

_NUM 《_PUNCT 红楼_NOUN 梦_PART 》_PUNCT ,_NUM 中国_PROPN 古典_NOUN 长篇_NOUN 章回_NOUN 小说_NOUN ,_NUM 是_VERB 中国_PROPN 四_NUM 大_NOUN 小说_NOUN 名著_NOUN 之_PART 一_NUM 。_PUNCT 《_PUNCT 红楼_NOUN 梦_PART 》_PUNCT 书内_NOUN 提及_VERB 的_PART 书名_NOUN ,_NUM 还_ADV 有_VERB 《_PUNCT 情僧_NOUN 录_PART 》_PUNCT 、_PUNCT 《_PUNCT 风月_NOUN 宝鉴_NOUN 》_PUNCT 、_PUNCT 《_PUNCT 金陵_PROPN 十二_NUM 钗_NOUN 》_PUNCT 、_PUNCT 《_PUNCT 金玉_PROPN 缘_PART 》_PUNCT ,_NUM 乾隆_PROPN 四十九_NUM 年_NOUN 甲辰_PROPN 梦觉_VERB 主_NOUN 人序_NOUN 本题_NOUN 为_VERB 《_PUNCT 红楼_NOUN 梦_PART 》_PUNCT 。_PUNCT 1791_NUM 年_NOUN 在_ADP 第一_NUM 次_NOUN 活字_NOUN 印刷_NOUN 后_ADP 。_PUNCT 故事_NOUN 是_VERB 由_VERB 女娲_NOUN 补天_NOUN 时_ADP 所_ADV 剩下_VERB 的_PART 一_NUM 块_NOUN 石头_NOUN 开始_VERB ,_NUM 因_ADP 此_PRON 又_ADV 名_VERB 《_PUNCT 石头_NOUN 记_PART 》_PUNCT 。_PUNCT 《_PUNCT 西游_VERB 记_PART 》_PUNCT ,_NUM 中国_PROPN 古典_NOUN 神怪_NOUN 小说_NOUN ,_NUM 中国_PROPN “四_NUM 大_ADJ 名_NOUN 著”_NUM 之_PART 一_NUM 。_PUNCT 成_VERB 书_NOUN 于_ADP 16_NUM 世纪_NOUN 明朝_PROPN 中叶_NOUN ,_NUM 一般_ADV 认为_VERB 作者_NOUN 是_VERB 明朝_PROPN 的_PART 吴_PROPN 承恩_PROPN 。_PUNCT 书中_NOUN 讲述_VERB 唐_PROPN 三藏_PROPN 师徒_NOUN 四_NUM 人_NOUN 西天_PROPN 取经_VERB 的_PART 故事_NOUN ,_NUM 表现_VERB 了_PART 惩恶_NOUN 扬善_ADJ 的_PART 古老_ADJ 主题_NOUN ,_NUM 也_ADV 有_VERB 观点_NOUN 认为_VERB 西游_VERB 记_PART 是_VERB 权力_NOUN 场_PART 讽刺_VERB 小说_NOUN 。_PUNCT 《_PUNCT 西_NOUN 游记_VERB 》_PUNCT 自_ADP 问世_NOUN 以来_VERB ,_NUM 在_ADP 中国_VERB 及_CONJ 世界_NOUN 各地广_NOUN 为_VERB 流传_VERB ,_NUM 被_VERB 翻译_VERB 成_VERB 多_NUM 种_NOUN 语言_NOUN 。_PUNCT

It seems that all the ',' is tagged as NUM .

yanshao9798 commented 6 years ago

I think ,is not seen in the training data (, is used instead) and therefore treated as an OOV and tagged incorrectly. You can substitute all , with ,and retrain the model and see if it works better.

GabrielLin commented 6 years ago

If I feed the network with training data with both ',' and ',' , is there any impact on the performance?

yanshao9798 commented 6 years ago

I don't think so. That actually might be a good idea!