tanreinama / GPTSAN

General-purpose Swich transformer based Japanese language model
MIT License
117 stars 4 forks source link

Train the model which was uploaded to Huggingface #8

Open OzoneAsai opened 1 year ago

OzoneAsai commented 1 year ago

I want to train the model which was uploaded to Huggingface. https://huggingface.co/Tanrei/GPTSAN-japanese Could you make a code to train and model it?

簡潔にまとめると以下のようになります。 Huggingface のpyTorch なGPTSAN をファインチューニングしたいのでレイヤー操作と追加層のトレーニングを行うコードをどこかにお願いします。

  1. pyTorch なモデルのファインチューニングを行うコード
  2. pyTorch なモデルのレイヤー等の操作を行うコード
  3. 置き場所の決定

多分以上のような工程になるかなと思います。(しらんけど) 恐れ入りますが、よろしくお願いします...

ついでに、Spaceも作りました。(性能と生成文字数の都合で時間がかかります。) https://huggingface.co/spaces/OzoneAsai/GPTsan2