FangShancheng / ABINet

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
Other
428 stars 72 forks source link

语言模型问题 #37

Open cjt222 opened 3 years ago

cjt222 commented 3 years ago

请问下,使用中文语料训练语言模型,得到的指标是 epoch 15 iter 28000: eval loss = 2.5787, ccr = 0.7434, cwr = 0.0914, ted = 0.0000, ned = 0.0000, ted/w = 0.0000,但是推理时却效果不佳,这个可能是什么原因?

input: 我是申华人民共和国公民 output:['这校中请人民共和谐公司的的']

aishangmaxiaoming commented 3 years ago

请问下,使用中文语料训练语言模型,得到的指标是 epoch 15 iter 28000: eval loss = 2.5787, ccr = 0.7434, cwr = 0.0914, ted = 0.0000, ned = 0.0000, ted/w = 0.0000,但是推理时却效果不佳,这个可能是什么原因?

input: 我是申华人民共和国公民 output:['这校中请人民共和谐公司的的']

我也遇到这种汉字出现重复比如你的结果里面的(的的),不知道为啥

FangShancheng commented 3 years ago
  1. 推理时候效果不佳,是说单独把语言模型拿出来推理,还是说放在识别模型中。输出是['这校中请人民共和谐公司的的'],这个不能看全句来理解,得把预测结果带入输入中才能理解,比如说“我是-华人民。。”,看output中,预测的结果确实是“中”,问题不大。。此外,应该去top-k的结果才有意义,top-1的结果意义不大,因为输出的是概率,整合到识别模型中的概率,因为同一个mask本身就可以对应多个合理的输出。
FangShancheng commented 3 years ago
  1. (的的)的问题,这个我没有具体了解到情况,此外,不知道词库训练数据是否足够大,学习足够充分。
Jack-Lee-NULL commented 3 years ago

论文中abinet的语言模型的cwr可以到41%我看到训练集是mj+st的词库,测试集是随机抽取的20000词,然后60%是replace错误,20%增删错误,测试集这部分具体是什么样?能不能放出来,我按照论文复现了这部分数据集,但是只能到37.07%

lyc728 commented 2 years ago

请问下,使用中文语料训练语言模型,得到的指标是 epoch 15 iter 28000: eval loss = 2.5787, ccr = 0.7434, cwr = 0.0914, ted = 0.0000, ned = 0.0000, ted/w = 0.0000,但是推理时却效果不佳,这个可能是什么原因?

input: 我是申华人民共和国公民 output:['这校中请人民共和谐公司的的']

你好,想请教下你是如何生成语言的语料库呢?

lyc728 commented 2 years ago

你好,想请教下你是如何生成语言的语料库呢?

你好,想请教下你是如何生成语言的语料库呢?

wu-yz commented 11 months ago

你好,想请教下你是如何生成语言的语料库呢?

你好,想请教下你是如何生成语言的语料库呢?

同问