liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
7 stars 5 forks source link

RuleBasedDetector #26

Closed voidf closed 1 year ago

voidf commented 1 year ago

拉了更新重开一个PR

除了read_int不能动之外其它都根据comment改了,如果要动需要写更复杂的逻辑

修了一个影响gpt询问脚本持续运行的问题

另:人工标注数据集更新,现在有一个1.8M的大文件,一共19篇:https://huggingface.co/datasets/bot-yaya/human_joined_en_paragraph ,GPT数据集将在做完500篇之后更新,并且修复换行表长度多1的问题

liyongsea commented 1 year ago

为什么read_int不能改动?