关于中文数据问题

kangbrilliant commented 4 years ago

您好，首先感谢您的思路及分享。目前我想在中文数据集上复现，那么步骤流程是否如下即可：

使用中文无监督数据预训练GPT2 （或使用目前开源repo中已训练好的，下面链接中有一个散文模型权重分享，受限于语料可能表现不佳，eg：https://github.com/Morizeyao/GPT2-Chinese）
将私有标签数据处理成示例样本格式；加载第一步的GPT2预训练模型，按照您项目中的如下脚本训练 python train.py --output_dir=MODEL_SAVE_PATH --model_type=gpt2 --model_name_or_path=PRE_TRINED_MODEL_PATH --do_train --do_eval --eval_data_file=data/restaurant/train.txt --per_gpu_train_batch_size 1 --num_train_epochs EPOCH --learning_rate LR --overwrite_cache --use_tokenize --train_data_file=data/restaurant/train.txt --overwrite_output_dir

我理解上述步骤没有做小样本上的fine-tune，但是可以用于标签数据集的预测。不知道有无遗漏步骤，感谢指导

pengbaolin commented 4 years ago

过程没问题的。

kangbrilliant commented 4 years ago

您好，关于在小样本上fine-tune，是否可以用多个domian的数据进行fine-tune然后公用呢。我看您的做法是每个domain都各自fine-tune一下 @pengbaolin

pengbaolin / SC-GPT