Closed usuyuki closed 1 year ago
最近リファクタリングしてばっかりなので、新機能の検証も行いたくなってきた
BERT系だと10GB程度の学習データがメジャーっぽい。
うすゆきが書いた日記の総データ量が1MBちょっとなので、あまりにも遠すぎる。死ぬまでに学習できるほどのデータ量に届かない。 ユーザー増やしてデータ集めるとか必要かも。
現状の最適解としては、やはりfine tuningできるものを探すのが良さそう。
本文からタイトル候補出すのとか割りとありな気がする。 あとSPビューで表示する文字列減らす際に、いい感じに出す文字とかにも……
個々人の日記に合わせてモデルを動的に作るみたいなのは難しそう。 エアフレンドどうやってるんだろ……
自分の日記データでfine tuningすると確実に個人情報出てくるようになるのが怖い。 人名とか特に。
やはりベストはユーザーごとにfine tuningしてそれぞれのユーザーに提供するようにしたい(ただコスト高すぎる)
実行結果 https://github.com/KadodeProject/kadode_fine_tuning/blob/main/01_learnResult.md
正直むずかしいなって印象。 やはり学習元データを一人に頼っちゃダメ。偏りすぎる。
特に日記だと知らない人の個人名とか出てくるの恐怖だし不快だと思うので、実装しない方向が良い。 あとVRAMでぶん殴る社会なので、計算機リソースが足りない。
備考:AIのべりすとさんはTransformerベースっぽくGPT-3をモデルに学習したと書かれている。 https://readyfor.jp/projects/ai-novel
ただやはり学習データと計算機リソースでぶんなぐってるのでかどで日記ではできない…… パラメータ数ではrinnaのGPT-1bの6倍(ただGPT-3とかとか比べると少なめ)
VTuberの名前とかも出せてたけど、学習何使ってるのだろうか……
日記だと当時の流行単語とかも把握する必要があって、そう考えると辞書ベースで辞書を更新するのが解析部分は確実かも。
✨ 概要
タイトルの通り
なぜ必要
前々から議題に上がっていたが、次の文章予測できる機能が日記の振り返りやすさにつながらないのでは?と思っていた。
一方で検索時に補完をする的な機能を作る上では実は役に立つのではないかと考え、ひとまず検証に乗り出すことにした。