代码中的bert模型multi_cased_L-12_H-768_A-12 - Githubissues

shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错，实现了Kenlm，T5，MacBERT，ChatGLM3，Qwen2.5等模型应用在纠错场景，开箱即用。

https://www.mulanai.com/product/corrector/

Apache License 2.0

5.61k stars 1.1k forks source link

代码中的bert模型multi_cased_L-12_H-768_A-12 #74

Closed zhangxiaofanL closed 4 years ago

zhangxiaofanL commented 5 years ago

你好，请问你训练得bert模型multi_cased_L-12_H-768_A-12与你readme中的chinese_finetuned_lm有什么不同，可以下载吗

zhangxiaofanL commented 5 years ago

另外请问TF_WEIGHTS_NAME = 'bert_model.ckpt'，你提供的链接下载微调好的模型里没有bert_model.ckpt，pytorch版本微调好只生成bert_config.json pytorch_model.bin vocab.txt这三个文件，请问bert_model.ckpt这个文件怎么获得的

shibing624 commented 5 years ago

这个是下载好的模型文件名称。该部分代码正在开发中，常有变动。

zhangxiaofanL commented 5 years ago

还有请问下 1.那你现在bert部分用的模型是直接下载的模型还是微调过的模型呢？
2.我看你的readme中，你现在微调方式是直接用pytorch的版本进行微调生成bert_config.json pytorch_model.bin vocab.txt。pythorch微调是没有生成bert_model.ckpt的，你是直接把下载好的模型的bert_model.ckpt放到微调的文件夹的吗？

zhangxiaofanL commented 5 years ago

另外: 1.BERT-Base, Multilingual Cased (New, recommended) 2.BERT-Base, Chinese 你现在好想是用的多语言的版本多语言版本比中文版本要好吗？

shibing624 commented 5 years ago

中文版本要好，chinese_finetuned_lm是在中文版本上fine-tuned的。pytorch的模型是微调之后的，bert_model.ckpt是默认的，都测试了一下效果。

zhangxiaofanL commented 5 years ago

你好我成功运行之后的结果: original sentence:少先队员因该为老人让座 => correct sentence:('少先队员应该为老人让路', [['因', '应', 4, 5], ['座', '路', 10, 11]]) original sentence:少先队员因该为老人让坐 => correct sentence:('少先队员应该为老人安慰', [['因', '应', 4, 5], ['让', '安', 9, 10], ['坐', '慰', 10, 11]]) original sentence:机七学习是人工智能领遇最能体现智能的一个分支 => correct sentence:('机器学习是人工智能领域最能体现智能的一个分支', [['七', '器', 1, 2], ['遇', '域', 10, 11]]) original sentence:机七学习是人工智能领遇最能体现智能的一个分知 => correct sentence:('第一学习是人工智能领域最能体现智能的一部分。', [['机', '第', 0, 1], ['七', '一', 1, 2], ['遇', '域', 10, 11], ['个', '部', 19, 20], ['知', '。', 21, 22]]) 好像不能完全纠正错误 pytorch_model.bin是用的你read.me上的链接下载的，bert_model.ckpt是中文版bert下载后拷贝过去的

shibing624 commented 5 years ago

嗯，欢迎提出新的意见和建议哈，目前效果暂时是这样哈，我在想办法改进呀。

zhangxiaofanL commented 5 years ago

嗯嗯期待大神的改进。另外不知道用百度的ERNIE效果会不会好一点

shibing624 commented 5 years ago

可以试试，或者xlnet在文本生成上的效果也很好。

zhangxiaofanL commented 5 years ago

另外请问下你这些模型都试过了吗？哪个模型的效果最好呢，能都补充一下详细的readme吗

shibing624 commented 5 years ago

说实话，规则的效果最好😆。我们追求算法的进步嘛

zhangxiaofanL commented 5 years ago

你好请问我训练你的rnn_lm，你给的网盘下载下来的people2014_words.txt是已经分词的，是直接这个格式就可以喂给rnn训练了吗，还是需要将people2014_words.txt进行分字

shibing624 commented 5 years ago

字粒度就分字

superdu12138 commented 5 years ago

你好，bert模型如何预训练呢 pregenerate_training_data.py 在阅读README 文件没有看到相关的 pregenerate_training_data.py 这些文件

superdu12138 commented 5 years ago

你好，bert模型如何预训练呢 pregenerate_training_data.py 在阅读README 文件没有看到相关的 pregenerate_training_data.py 这些文件

找到了

superdu12138 commented 5 years ago

我并不能训练BERT模型，在pregenerate_training_data.py 无法运行这条命令以及其他参数，

impltrait commented 5 years ago

你好，bert模型如何预训练呢pregenerate_training_data.py在阅读自述文件没有看到相关的 pregenerate_training_data.py这些文件

找到了

在哪呀

shibing624 commented 5 years ago

pytorch-transformers版本有更新, 可查看git旧版对应使用。或者 https://github.com/huggingface/pytorch-transformers/blob/master/examples/README.md 参考使用 python run_lm_finetuning.py \ --output_dir=output \ --model_type=roberta \ --model_name_or_path=roberta-base \ --do_train \ --train_data_file=$TRAIN_FILE \ --do_eval \ --eval_data_file=$TEST_FILE \ --mlm

brealisty commented 5 years ago

我并不能训练BERT模型，在pregenerate_training_data.py 无法运行这条命令以及其他参数，

请问下，你现在会弄了吗？

impltrait commented 5 years ago

不会发自我的华为手机-------- 原始邮件 --------发件人： brealisty notifications@github.com日期： 2019年10月29日周二 21:21收件人： shibing624/pycorrector pycorrector@noreply.github.com抄送： wangbinhao admihao@163.com, Comment comment@noreply.github.com主题： Re: [shibing624/pycorrector] 代码中的bert模型multi_cased_L-12_H-768_A-12 (#74)

我并不能训练BERT模型，在pregenerate_training_data.py 无法运行这条命令以及其他参数，

请问下，你现在会弄了吗？

—You are receiving this because you commented.Reply to this email directly, view it on GitHub, or unsubscribe.

shibing624 commented 4 years ago

update readme.