nogawanogawa commented 8 months ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/238

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

chimuichimu commented 8 months ago

Rapid Regression Detection in Software Deployments through Sequential Testing

概要

ソフトウェアの変更によるリグレッションの検知に Sequential Test というアプローチを提案する Netflix の論文
先週の推薦・機械学習勉強会で紹介したNetflixのブログ記事の基になっている論文

ソフトウェアの変更に関する課題感

ソフトウェアの変更によりパフォーマンスのデグレードが生まれてユーザ体験に悪影響を与えないか？を確認したい。

要求は以下

問題がある場合はそれを早く検出したい
偽陽性はなるべくなくしたい
平均値や中央値だけではなく、分布の変化を検出したい

一般的なfixed-nやfixed-timeなA/Bテストでは以下のような課題がある

十分なデータを集めてから検定、だと問題がある場合ユーザ体験への悪影響が長くなる
かといって少量のデータで検定、だと大きな変化しか検出できない
また、何回も繰り返し検定を行うと第一種過誤が増幅する（Peekingと呼ばれる問題）
- 参考：Peeking at A/B Tests: Why it matters, and what to do about it

Sequential Test

Fixed-n Inference の場合

以下は Dvoretzky–Kiefer–Wolfowitz (DKWM) inequality から導出された、累積分布関数のconficence band

この不等式が意味すること：「n 個の標本を抽出して分布関数を計算する」というのを100回やったらそのうち(1-alpha)*100は真の分布関数がこの不等式の区間に含まれる

ここで重要なのは n がある値で固定されている、ということもし n を変えて検定を何回もやると、何回も検定している間に間違っていないのに帰無仮説を棄却してしまうリスク（＝第一種過誤の確率）が増大してしまう

Sequential Inference の場合

Fixed-n のconfidence bandをすべての n で成り立つように拡張した "confidence sequence" なるものを考える

この不等式が意味すること：「n 個の標本を抽出して分布関数を計算する」というのを100回やったらそのうち(1-alpha)*100は真の分布関数がこの不等式の区間に含まれる、ということが任意の n に対して成り立つ

このように任意の標本サイズ n （あるいは任意の時刻）において推定量に対して成立する不等式を考えることで、、逐次的に供給されるデータに対する検定が可能になる

ケーススタディ：PlayDelayの増加の検出

PlayDelayとは？
- Netflixのユーザが動画の再生ボタンを押してから、実際に動画が再生され始めるまでの時間
- ストリーミングの性能を評価する上で重要な指標
- なるべく小さくしたい指標。ソフトウェアの変更で増加したらそれを検知したい
Sequential testの結果
- quantile / distributionは有意にPlayDelayが増加した
- sequential p-value が65秒で0.01を下回った
論文ではPlayDelayのような連続値のメトリクスだけでなく"Successful Play Starts（動画再生が成功する回数） "のようなカウント値のメトリクスの変化検出もケーススタディとして取り上げられている

Hayashi-Yudai commented 8 months ago

H2O-Danube-1.8B Technical Report

中規模なオープンソースLLMのモデルのテクニカルレポート。LLamaやMistralで使われている知見を取り込んだモデル担っていて、学習に使っているデータのトータルトークン数が少ないらしい。それでいて他の同程度の規模のLLMと比較して性能的に良くなっている。

nogawanogawa commented 8 months ago

RAFT: Adapting Language Model to Domain Specific RAG

論文URL

https://arxiv.org/abs/2403.10131

著者

Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez

会議

?

背景

近年ではLLMをソフトウェアフレームワークのコード補完から特定の文書コレクションの質問応答など、特殊化されたドメインで採用される動きがある。このような状況下では、与えられた文書集合に基づく精度を最大化することが主な目標となる。

このような状況下では、RAGやfine tuningが有望な手法となっている。

RAG
- メリット
- 質問に答える際に文書を参照することができる
- デメリット
- ドメインが固定され、学習機会が得られるメリットが活かせない
fine tuning
- メリット
- 一般的なパターンを学習により獲得できる
- デメリット
- テスト時に文書を活用できない

目的

LLMを微調整してドメイン知識を取り込みつつ、ドメイン内のRAGを改善するという課題を解決したい

アプローチ

RAFT : Retrieval Augmented Fine Tuning
- fine tuningとRAGの組み合わせ
- fine tuning時のデータセットを工夫する
  - 正解を類推できるドキュメント（n >=1）と関係ない文書を混ぜ合わせたドキュメント群
- 回答にはCoT方式を採用し、必ず理由と回答を答えさせるようにしている

memo

https://github.com/nogawanogawa/paper_memo/issues/108

KKaichi commented 8 months ago

Swallow コーパス: 日本語大規模ウェブコーパス

スライド

第6回 Data-Centric AI 勉強会で発表されたらしいです（参加済みの方は2度目となってしまい申し訳ないです...）．

概要

日本語大規模言語モデルの学習には，CC-100，mC4，OSCARなどのコーパスの日本語部分が用いられてきた．しかし，日本語テキスツの品質を重視して作られているわけではない．東工大では，Common Crawlのアーカイブから日本語のテキストを独自に抽出・精錬し，約3,121億文字からなる日本語ウェブコーパスを構築した． ※ スライドを用いてお話ししていきます．

おまけ

mC4(175B)、C100(13B)、OSCAR(37B)← 汚い, CulturaX(107B)（mC4とOSCARを集約して綺麗にしたもの）

wantedly / machine-learning-round-table

[2024/03/27]Machine Learning 輪講 #240

Why