thunlp / PL-Marker

Source code for "Packed Levitated Marker for Entity and Relation Extraction"
MIT License
260 stars 35 forks source link

关于中文数据集的适配 #33

Closed Gladiator566 closed 2 years ago

Gladiator566 commented 2 years ago

您好,很棒的工作! 请问一下如果我想要把这个模型应用到自己的中文数据集上,除了修改输入数据的格式成README里的格式以外,还需要做哪些工作呢?

# sentences in the document, each sentence is a list of tokens
  "sentences": [
    [...],
    [...],
    ["tens", "of", "thousands", "of", "college", ...],
    ...
  ]

譬如中文的话,这个sentences中的tokens,是单个的字还是要分词呢,还是说是经过tokenizer之后的结果?

谢谢!

YeDeming commented 2 years ago

是经过tokenizer之后的结果,但我没测试过这个代码在中文上的应用

guanxichouqu commented 1 year ago

您好,很棒的工作! 请问一下如果我想要把这个模型应用到自己的中文数据集上,除了修改输入数据的格式成README里的格式以外,还需要做哪些工作呢?

# sentences in the document, each sentence is a list of tokens
  "sentences": [
    [...],
    [...],
    ["tens", "of", "thousands", "of", "college", ...],
    ...
  ]

譬如中文的话,这个句子中的tokens,是单个的字还是要分词呢,还是说是经过tokenizer之后的结果?

谢谢!

你好 我也想测试一下在中文数据集的情况,可以分享一下你的经验嘛

mumuyeye commented 11 months ago

想请问一下中文数据集应用的后续~