brightmart / nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
MIT License
9.41k stars 1.54k forks source link

webtext2019zh数据不完整 #23

Closed xueyouluo closed 3 years ago

xueyouluo commented 5 years ago

查看了一下train和valid里面的content数据,发现很多content内容都被截断了: image

brightmart commented 5 years ago

哦,好的,大概有多少比例?如果比例不高的话,你可以直接把半句的句子通过正则去掉。

CoinCheung commented 1 year ago

Hi @xueyouluo ,

请问您是怎么过滤不完整的句子的呀,用什么方式判断一个句子是否完整呢

xueyouluo commented 1 year ago

根据标点简单判断一下

CoinCheung @.***> 于2023年6月2日周五 16:59写道:

Hi @xueyouluo https://github.com/xueyouluo ,

请问您是怎么过滤不完整的句子的呀,用什么方式判断一个句子是否完整呢

— Reply to this email directly, view it on GitHub https://github.com/brightmart/nlp_chinese_corpus/issues/23#issuecomment-1573395915, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABHUSRF5K5ZKFC4KZP6BRT3XJGTPNANCNFSM4IJT6IQQ . You are receiving this because you were mentioned.Message ID: @.***>

-- Jason.Luo