Open li-aolong opened 5 years ago
__init__.py
Corrector
detect()
set_custom_confusion_dict()
set_custom_word()
set_language_model_path()
ngram_score()
ppl_score()
word_frequency()
enable_char_error()
enable_word_error()
get_same_pinyin()
get_same_stroke()
correct()
config.py
detector.py
ErrorType()
Detector()
initialize_detector()
self.word_freq
corrector.py
Corrector()
initialize_corrector()
generate_items()
lm_correct_item()
tokenizer.py
segment()
Tokenizer()
__init__()
tokenize()
eval.py
en_spell
使用了8种深度模型:
基于规则的方法
__init__.py
:Corrector
,初始化了一些可直接调用的方法detect()
:检测句子中的疑似错误信息,包括[词、位置、错误类型]set_custom_confusion_dict()
:设置自定义混淆集set_custom_word()
:自定义切词词典set_language_model_path()
:设置语言模型路径并加载ngram_score()
:取n元文法得分ppl_score()
:取语言模型困惑度得分,越小句子越通顺word_frequency()
:取词在样本中的词频enable_char_error()
:字符错误检测是否打开enable_word_error()
:单词错误检测是否打开get_same_pinyin()
:取同音字get_same_stroke()
:取形似字correct()
:句子改错config.py
:detector.py
:ErrorType()
,用于定义错误类型的数字表示;另一个是Detector()
,如下所示Detector()
,用于检测initialize_detector()
:加载lm、词频词典、自定义词频词典、自定义混淆集、人名、地名、停用词,然后合并成一个词典为self.word_freq
detect()
:检测句子中的疑似错误信息,包括[词、位置、错误类型]corrector.py
:Corrector()
是detector.py
的子类,用于纠错initialize_corrector()
:加载字符集、同音字集、形似字集generate_items()
:生成纠错候选集lm_correct_item()
:通过语言模型纠正字词错误correct()
:对输入句子进行改错tokenizer.py
:segment()
:用于分词Tokenizer()
:__init__()
:加载大词典、自定义词典、混淆集词典tokenize()
:切词并返回切词位置eval.py
:en_spell
:英文拼写矫正器基于深度模型的方法
使用了8种深度模型: