pengbaolin / SC-GPT

Few-shot Natural Language Generation for Task-Oriented Dialog
https://aka.ms/scgpt
190 stars 31 forks source link

关于中文数据问题 #8

Closed kangbrilliant closed 4 years ago

kangbrilliant commented 4 years ago

您好,首先感谢您的思路及分享。 目前我想在中文数据集上复现,那么步骤流程是否如下即可:

  1. 使用中文无监督数据预训练GPT2 (或使用目前开源repo中已训练好的,下面链接中有一个散文模型权重分享,受限于语料可能表现不佳,eg:https://github.com/Morizeyao/GPT2-Chinese
  2. 将私有标签数据处理成示例样本格式;加载第一步的GPT2预训练模型,按照您项目中的如下脚本训练 python train.py --output_dir=MODEL_SAVE_PATH --model_type=gpt2 --model_name_or_path=PRE_TRINED_MODEL_PATH --do_train --do_eval --eval_data_file=data/restaurant/train.txt --per_gpu_train_batch_size 1 --num_train_epochs EPOCH --learning_rate LR --overwrite_cache --use_tokenize --train_data_file=data/restaurant/train.txt --overwrite_output_dir

我理解上述步骤没有做小样本上的fine-tune,但是可以用于标签数据集的预测。 不知道有无遗漏步骤,感谢指导

pengbaolin commented 4 years ago

过程没问题的。

kangbrilliant commented 4 years ago

您好,关于在小样本上fine-tune,是否可以用多个domian的数据进行fine-tune然后公用呢。 我看您的做法是每个domain都各自fine-tune一下 @pengbaolin