Closed LittleZ2022 closed 1 year ago
请问re的few-shot训练自定义数据集时有测试中文的经验吗,需要注意些什么问题?目前看到提供的数据集是英文的。
比如,如果可以训练中文数据集,请问怎么准备数据集的格式,是按照目前英文数据集的四个文件的格式来吗?现在已经用doccano标注好数据了。
改用中文LM和中文tokenizer,格式可参考目前的英文数据集。 建议参考Knowprompt中文实现:https://github.com/zjunlp/LREBench, 其中有中文数据集DuIE2.0和CMeIE示例,运行脚本见https://github.com/zjunlp/LREBench/tree/main/scripts, 但是不包含validation和调参
请问re的few-shot训练自定义数据集时有测试中文的经验吗,需要注意些什么问题?目前看到提供的数据集是英文的。
比如,如果可以训练中文数据集,请问怎么准备数据集的格式,是按照目前英文数据集的四个文件的格式来吗?现在已经用doccano标注好数据了。