shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

代码中的bert模型multi_cased_L-12_H-768_A-12 #74

Closed zhangxiaofanL closed 4 years ago

zhangxiaofanL commented 5 years ago

你好,请问你训练得bert模型multi_cased_L-12_H-768_A-12与你readme中的chinese_finetuned_lm有什么不同,可以下载吗

zhangxiaofanL commented 5 years ago

另外请问TF_WEIGHTS_NAME = 'bert_model.ckpt',你提供的链接下载微调好的模型里没有bert_model.ckpt,pytorch版本微调好只生成bert_config.json pytorch_model.bin vocab.txt这三个文件,请问bert_model.ckpt这个文件怎么获得的

shibing624 commented 5 years ago

这个是下载好的模型文件名称。该部分代码正在开发中,常有变动。

zhangxiaofanL commented 5 years ago

还有请问下 1.那你现在bert部分用的模型是直接下载的模型还是微调过的模型呢?
2.我看你的readme中,你现在微调方式是直接用pytorch的版本进行微调生成bert_config.json pytorch_model.bin vocab.txt。pythorch微调是没有生成bert_model.ckpt的,你是直接把下载好的模型的bert_model.ckpt放到微调的文件夹的吗?

zhangxiaofanL commented 5 years ago

另外: 1.BERT-Base, Multilingual Cased (New, recommended) 2.BERT-Base, Chinese 你现在好想是用的多语言的版本 多语言版本比中文版本要好吗?

shibing624 commented 5 years ago

中文版本要好,chinese_finetuned_lm是在中文版本上fine-tuned的。pytorch的模型是微调之后的,bert_model.ckpt是默认的,都测试了一下效果。

zhangxiaofanL commented 5 years ago

你好 我成功运行之后的结果: original sentence:少先队员因该为老人让座 => correct sentence:('少先队员应该为老人让路', [['因', '应', 4, 5], ['座', '路', 10, 11]]) original sentence:少先队员因该为老人让坐 => correct sentence:('少先队员应该为老人安慰', [['因', '应', 4, 5], ['让', '安', 9, 10], ['坐', '慰', 10, 11]]) original sentence:机七学习是人工智能领遇最能体现智能的一个分支 => correct sentence:('机器学习是人工智能领域最能体现智能的一个分支', [['七', '器', 1, 2], ['遇', '域', 10, 11]]) original sentence:机七学习是人工智能领遇最能体现智能的一个分知 => correct sentence:('第一学习是人工智能领域最能体现智能的一部分。', [['机', '第', 0, 1], ['七', '一', 1, 2], ['遇', '域', 10, 11], ['个', '部', 19, 20], ['知', '。', 21, 22]]) 好像不能完全纠正错误 pytorch_model.bin是用的你read.me上的链接下载的,bert_model.ckpt是中文版bert下载后拷贝过去的

image

shibing624 commented 5 years ago

嗯,欢迎提出新的意见和建议哈,目前效果暂时是这样哈,我在想办法改进呀。

zhangxiaofanL commented 5 years ago

嗯嗯 期待大神的改进。 另外不知道用百度的ERNIE效果会不会好一点

shibing624 commented 5 years ago

可以试试,或者xlnet在文本生成上的效果也很好。

zhangxiaofanL commented 5 years ago

image

另外请问下你这些模型都试过了吗?哪个模型的效果最好呢,能都补充一下详细的readme吗

shibing624 commented 5 years ago

说实话,规则的效果最好😆。我们追求算法的进步嘛

zhangxiaofanL commented 5 years ago

你好 请问我训练你的rnn_lm,你给的网盘下载下来的people2014_words.txt是已经分词的,是直接这个格式就可以喂给rnn训练了吗,还是需要将people2014_words.txt进行分字

shibing624 commented 5 years ago

字粒度就分字

superdu12138 commented 5 years ago

你好,bert模型如何预训练呢 pregenerate_training_data.py 在阅读README 文件 没有看到相关的 pregenerate_training_data.py 这些文件

superdu12138 commented 5 years ago

你好,bert模型如何预训练呢 pregenerate_training_data.py 在阅读README 文件 没有看到相关的 pregenerate_training_data.py 这些文件

找到了

superdu12138 commented 5 years ago

我 并不能训练BERT模型,在pregenerate_training_data.py 无法运行这条命令以及其他参数,

impltrait commented 5 years ago

你好,bert模型如何预训练呢pregenerate_training_data.py在阅读自述文件没有看到相关的 pregenerate_training_data.py这些文件

找到了

在哪呀

shibing624 commented 5 years ago

pytorch-transformers版本有更新, 可查看git旧版对应使用。 或者 https://github.com/huggingface/pytorch-transformers/blob/master/examples/README.md 参考使用 python run_lm_finetuning.py \ --output_dir=output \ --model_type=roberta \ --model_name_or_path=roberta-base \ --do_train \ --train_data_file=$TRAIN_FILE \ --do_eval \ --eval_data_file=$TEST_FILE \ --mlm

brealisty commented 5 years ago

我 并不能训练BERT模型,在pregenerate_training_data.py 无法运行这条命令以及其他参数,

请问下,你现在会弄了吗?

impltrait commented 5 years ago

不会发自我的华为手机-------- 原始邮件 --------发件人: brealisty notifications@github.com日期: 2019年10月29日周二 21:21收件人: shibing624/pycorrector pycorrector@noreply.github.com抄送: wangbinhao admihao@163.com, Comment comment@noreply.github.com主 题: Re: [shibing624/pycorrector] 代码中的bert模型multi_cased_L-12_H-768_A-12 (#74)

我 并不能训练BERT模型,在pregenerate_training_data.py 无法运行这条命令以及其他参数,

请问下,你现在会弄了吗?

—You are receiving this because you commented.Reply to this email directly, view it on GitHub, or unsubscribe.

shibing624 commented 4 years ago

update readme.