SophonPlus / ChineseNlpCorpus

搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
5.89k stars 1.4k forks source link

could I use it in bert and how I should do the preprocessing for the data? are emoticons out of vocabulary? #10

Open easywaytodo opened 5 years ago