KadodeProject / kadode_nikki3

✾かどで日記は日記を作成・管理・分析できるWebアプリです。ドッグフーディングしています。
https://kadode.usuyuki.net
MIT License
8 stars 1 forks source link

[✨Feature]:fine tuningで日記最適化モデルを作って検証する #378

Closed usuyuki closed 1 year ago

usuyuki commented 1 year ago

✨ 概要

タイトルの通り

なぜ必要

前々から議題に上がっていたが、次の文章予測できる機能が日記の振り返りやすさにつながらないのでは?と思っていた。

一方で検索時に補完をする的な機能を作る上では実は役に立つのではないかと考え、ひとまず検証に乗り出すことにした。

usuyuki commented 1 year ago

最近リファクタリングしてばっかりなので、新機能の検証も行いたくなってきた

usuyuki commented 1 year ago

BERT系だと10GB程度の学習データがメジャーっぽい。

うすゆきが書いた日記の総データ量が1MBちょっとなので、あまりにも遠すぎる。死ぬまでに学習できるほどのデータ量に届かない。 ユーザー増やしてデータ集めるとか必要かも。

現状の最適解としては、やはりfine tuningできるものを探すのが良さそう。

usuyuki commented 1 year ago

本文からタイトル候補出すのとか割りとありな気がする。 あとSPビューで表示する文字列減らす際に、いい感じに出す文字とかにも……

usuyuki commented 1 year ago

個々人の日記に合わせてモデルを動的に作るみたいなのは難しそう。 エアフレンドどうやってるんだろ……

https://twitter.com/_ryobot/status/1437762555578134530

usuyuki commented 1 year ago

自分の日記データでfine tuningすると確実に個人情報出てくるようになるのが怖い。 人名とか特に。

やはりベストはユーザーごとにfine tuningしてそれぞれのユーザーに提供するようにしたい(ただコスト高すぎる)

usuyuki commented 1 year ago

ここで行った https://github.com/KadodeProject/kadode_fine_tuning

usuyuki commented 1 year ago

実行結果 https://github.com/KadodeProject/kadode_fine_tuning/blob/main/01_learnResult.md

正直むずかしいなって印象。 やはり学習元データを一人に頼っちゃダメ。偏りすぎる。

usuyuki commented 1 year ago

特に日記だと知らない人の個人名とか出てくるの恐怖だし不快だと思うので、実装しない方向が良い。 あとVRAMでぶん殴る社会なので、計算機リソースが足りない。

usuyuki commented 1 year ago

https://github.com/KadodeProject/kadode_nikki3/issues/408

usuyuki commented 1 year ago

備考:AIのべりすとさんはTransformerベースっぽくGPT-3をモデルに学習したと書かれている。 https://readyfor.jp/projects/ai-novel

ただやはり学習データと計算機リソースでぶんなぐってるのでかどで日記ではできない…… パラメータ数ではrinnaのGPT-1bの6倍(ただGPT-3とかとか比べると少なめ)

VTuberの名前とかも出せてたけど、学習何使ってるのだろうか……

日記だと当時の流行単語とかも把握する必要があって、そう考えると辞書ベースで辞書を更新するのが解析部分は確実かも。