Open zhangrui17 opened 5 months ago
lines.append(text + "<|im_end|>") chunk_data = split_txt_corpus_to_chunk_en(lines)
这样如果前一个样本长度刚好在2048附近,会出现‘’<|im_end|>‘’的各个字符被截断分开到两个不同的样本中吗?
还有如果是处理英文数据,这个函数也不适用,因为会把英文中的字母截断
会存在这个问题,你可以重新写一个分割代码
lines.append(text + "<|im_end|>") chunk_data = split_txt_corpus_to_chunk_en(lines)
这样如果前一个样本长度刚好在2048附近,会出现‘’<|im_end|>‘’的各个字符被截断分开到两个不同的样本中吗?