Closed Gladiator566 closed 2 years ago
是经过tokenizer之后的结果,但我没测试过这个代码在中文上的应用
您好,很棒的工作! 请问一下如果我想要把这个模型应用到自己的中文数据集上,除了修改输入数据的格式成README里的格式以外,还需要做哪些工作呢?
# sentences in the document, each sentence is a list of tokens "sentences": [ [...], [...], ["tens", "of", "thousands", "of", "college", ...], ... ]
譬如中文的话,这个句子中的tokens,是单个的字还是要分词呢,还是说是经过tokenizer之后的结果?
谢谢!
你好 我也想测试一下在中文数据集的情况,可以分享一下你的经验嘛
想请问一下中文数据集应用的后续~
您好,很棒的工作! 请问一下如果我想要把这个模型应用到自己的中文数据集上,除了修改输入数据的格式成README里的格式以外,还需要做哪些工作呢?
譬如中文的话,这个sentences中的tokens,是单个的字还是要分词呢,还是说是经过tokenizer之后的结果?
谢谢!