instruction tuningについて

kojimano / Megatron-DeepSpeed-ABCI

Other

5 stars 2 forks source link

Open keisks opened 1 year ago

keisks commented 1 year ago

事前学習後にinstruction tuning を行う。（RLHFよりも効果が大きいという話を以前どこかで聞いた記憶がある。）

日本語で行う場合のデータをどうするか。また、evaluation用のデータ（タスク）とinstruction tuning用のデータ（タスク）は分ける必要がありそう。

keisks commented 1 year ago

keisks commented 1 year ago

RLFHについては https://huggingface.co/datasets/Anthropic/hh-rlhf を日本語化する必要がある。

keisks commented 1 year ago

keisks commented 1 year ago