iqiyi / FASPell

2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)
GNU General Public License v3.0
1.2k stars 213 forks source link

some queries for this code #42

Open lmw0320 opened 3 years ago

lmw0320 commented 3 years ago

看了代码和readme,我想训练一个适合自身业务的模型,我有几点疑问,想请教下:

  1. masked_lm.py文件中,我没有看到训练模型的时候,使用GPU?
  2. readme中介绍,训练模型要按顺序执行三个步骤:预训练掩码语言模型,微调训练掩码语言模型,训练CSD过滤器。我不是很明白。。对于使用自身的数据集来训练模型的话,是否需要按顺序执行这三个步骤??正常情况下,不是可以直接使用预训练模型文件和自身的数据集,就可以训练一个属于自身业务的模型了me?为什么还要分三步走?
  3. 这个CSD过滤器按照readme中的解释,训练起来比较复杂。但是,我还是没看明白,其中的数据集是如何准备的??
  4. 原始代码中已经包含了OCR_train和OCR_test的数据集,其格式比较明确。其应该也需要在训练前,通过create_data.py文件生成指定的wrong和correct.txt文件,然后就可以直接使用转换出来的3个文件(除了wrong和correct.txt,还有一个mask_probability.sav文件),进行训练了??
  5. 根据代码中的提示,-m参数需设置为e, 且agrs.train需为true的情况下,就可以直接进行模型训练?但是没有验证过程? 求指点。。