-
您好,在使用jcorrector的过程中我发现会把一些英文或者数字进行替换,导致一些异常,我想如果句子中包含英文或数字的情况,不将它们替换,而是保留原字符,我该怎么做?
-
我的算力不足以将自己的数据集与SIGHAN+Wang271K的数据集放在一起训练,有方法直接在您发布的预训练模型的基础上finetune吗?
-
### Describe the Question
Please provide a clear and concise description of what the question is.
老师您好!我想请教一下bart为基础的模型能做不等长语句的矫正(cgec)吗。个人的理解是bart预训练是做抗噪的,这个过程其实就挺像文本纠错的,并且也涉及到了输入输出不等长的情况。选用bart做为预…
LY637 updated
6 months ago
-
检测文本:西安交通大学官网介绍。
[text.txt](https://github.com/shibing624/pycorrector/files/13593234/text.txt)
检测方式:采用中文长句(按照句号分割)和中文短句(按照中文标点分割)的方式分别检测。
检测结果:发现结果中有较多的误报,详情见如下附件。
[文章的检错结果(按照长句(句号分隔)).xlsx](https…
-
在训练 macbert4csc模型时,[参考该README](https://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md) 下载的数据集,训练出的模型,总是会将 “覆盖” 误纠成 “复盖”、 “其余” 误纠成 “其馀”。 分析train.json发现,里面相关的条目将
original_t…
-
### 能否关闭对文本中英文的处理?在纠错的文本中直接返回原文中包含的英文文本
为了保持待纠错句子的完整性,不好将句子中的英文直接去掉。 或者,是否有办法使用 将英文处理成mask ,以使大模型忽略mask?
- Cup被纠错成了 “杯”
```
原文:实验基于滴滴出行在2020 KDD Cup上提供的中国成都地区2016年11月的快专车数据信息
修正: 实验基于滴滴出…
-
```js
>>> from pycorrector import MacBertCorrector
>>> m = MacBertCorrector("shibing624/macbert4csc-base-chinese")
>>> print(m.correct_batch(['本项目基于Kenlm统计语言模型工具训连了中文NGram语言模型']))
[{'source': '本…
-
想问一下,这个模型是重新根据csc任务特点重新训练的bert吗?----即是利用混淆字词去替换文本产生噪音?
还是本身就是macbert,只是经过那个wang27k数据集微调的模型?
-
### Describe the bug
Please provide a clear and concise description of what the bug is. If applicable, add screenshots to help explain your problem, especially for visualization related problems.
…
-
不太清楚怎么进行自有数据集的训练
如果使用自有数据集是替换train_macbert4csc.yml中的dataset的train.json,test.json和dev.json文件部分 然后运行train.py就可训练模型了吗
train,test,dev的json是指定了某句话里面的错误信息,那如果想要判断一个json文件中从未出现过的句子,还能实现纠错吗?
期待得到您的回复,谢谢!
ASLYY updated
9 months ago