fastnlp / CPT

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
481 stars 70 forks source link

中文分词的数据问题 #43

Closed Richar-Du closed 1 year ago

Richar-Du commented 2 years ago

您好,非常感谢您的开源代码!

请问中文分词的数据需要处理成什么样子呢?从SIGHAN上下载的是txt格式的,但是代码里需要的是json格式,我也没有在README里找到样例数据。您可以提供一下处理好之后的数据,或者数据预处理的代码吗?

十分感谢~