Closed kovnew closed 3 years ago
你可以尝试一下 encoding='unicode_escape'
。此外sighan15有3个id存在标注错误,代码未作处理,届时直接修改数据即可。
改成其他id,还是删除?我这边改为其他id后报错了
TEST:
BATCH_SIZE: 16
CKPT_FN:
B2-2427-1
针对于宠物出租我个人非常同意,因为省时间天天去照顾,而且省钱天天为牠吃,有出租宠物的机会当然非常好,想念牠的时候就可以带回家,然后不想养或着工作忙碌的时候没办法照顾,就可以送走。
针对于宠物出租我个人非常同意,因为省时间,而且省钱天天为牠吃,有出租宠物的机会当然非常好,想念牠的时候就可以带回家,然后不想养或着工作忙碌的时候没办法照顾,就可以送走。
Traceback (most recent call last):
File "E:/nlpcode/BertBasedCorrectionModels-master/tools/train_csc.py", line 53, in
已于commit #10 解决
初次运行模型在数据预处理B1_training.sgml的时候编码报错,文件是通过给的网址下的,有尝试在open的时候加入encoding='utf-8'但是没有作用。人工看了下文件也看不出问题出在哪..问题第一次似乎出在处理第5842行的时候。
<PASSAGE id="B1-0826-1">因為那是我的第一次去北京,我的朋友就是我的導遊。跟他我們一起去了北京特別的地方,必如說長城、故宮、天堂公園什麼的。</PASSAGE>