关于中文数据集的适配

Gladiator566 commented 2 years ago

您好，很棒的工作！请问一下如果我想要把这个模型应用到自己的中文数据集上，除了修改输入数据的格式成README里的格式以外，还需要做哪些工作呢？

# sentences in the document, each sentence is a list of tokens
  "sentences": [
    [...],
    [...],
    ["tens", "of", "thousands", "of", "college", ...],
    ...
  ]

譬如中文的话，这个sentences中的tokens，是单个的字还是要分词呢，还是说是经过tokenizer之后的结果？

谢谢！

YeDeming commented 2 years ago

是经过tokenizer之后的结果，但我没测试过这个代码在中文上的应用

guanxichouqu commented 1 year ago

您好，很棒的工作！请问一下如果我想要把这个模型应用到自己的中文数据集上，除了修改输入数据的格式成README里的格式以外，还需要做哪些工作呢？
# sentences in the document, each sentence is a list of tokens
  "sentences": [
    [...],
    [...],
    ["tens", "of", "thousands", "of", "college", ...],
    ...
  ]
譬如中文的话，这个句子中的tokens，是单个的字还是要分词呢，还是说是经过tokenizer之后的结果？

谢谢！

你好我也想测试一下在中文数据集的情况，可以分享一下你的经验嘛

mumuyeye commented 11 months ago

想请问一下中文数据集应用的后续~

thunlp / PL-Marker

关于中文数据集的适配 #33