Open nogawanogawa opened 8 months ago
ソフトウェアの変更によりパフォーマンスのデグレードが生まれてユーザ体験に悪影響を与えないか?を確認したい。
要求は以下
一般的なfixed-nやfixed-timeなA/Bテストでは以下のような課題がある
以下は Dvoretzky–Kiefer–Wolfowitz (DKWM) inequality から導出された、累積分布関数のconficence band
この不等式が意味すること:「n 個の標本を抽出して分布関数を計算する」というのを100回やったらそのうち(1-alpha)*100は真の分布関数がこの不等式の区間に含まれる
ここで重要なのは n がある値で固定されている、ということ もし n を変えて検定を何回もやると、何回も検定している間に間違っていないのに帰無仮説を棄却してしまうリスク(=第一種過誤の確率)が増大してしまう
Fixed-n のconfidence bandをすべての n で成り立つように拡張した "confidence sequence" なるものを考える
この不等式が意味すること:「n 個の標本を抽出して分布関数を計算する」というのを100回やったらそのうち(1-alpha)*100は真の分布関数がこの不等式の区間に含まれる、ということが任意の n に対して成り立つ
このように任意の標本サイズ n (あるいは任意の時刻)において推定量に対して成立する不等式を考えることで、、逐次的に供給されるデータに対する検定が可能になる
中規模なオープンソースLLMのモデルのテクニカルレポート。LLamaやMistralで使われている知見を取り込んだモデル担っていて、学習に使っているデータのトータルトークン数が少ないらしい。それでいて他の同程度の規模のLLMと比較して性能的に良くなっている。
https://arxiv.org/abs/2403.10131
Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez
?
近年ではLLMをソフトウェアフレームワークのコード補完から特定の文書コレクションの質問応答など、特殊化されたドメインで採用される動きがある。 このような状況下では、与えられた文書集合に基づく精度を最大化することが主な目標となる。
このような状況下では、RAGやfine tuningが有望な手法となっている。
第6回 Data-Centric AI 勉強会で発表されたらしいです(参加済みの方は2度目となってしまい申し訳ないです...).
日本語大規模言語モデルの学習には,CC-100,mC4,OSCARなどのコーパスの日本語部分が用いられてきた.しかし,日本語テキスツの品質を重視して作られているわけではない.東工大では,Common Crawlのアーカイブから日本語のテキストを独自に抽出・精錬し,約3,121億文字からなる日本語ウェブコーパスを構築した. ※ スライドを用いてお話ししていきます.
おまけ
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/238
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!