wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2024/03/27]Machine Learning 輪講 #240

Open nogawanogawa opened 3 months ago

nogawanogawa commented 3 months ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/238

What

話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

chimuichimu commented 3 months ago

Rapid Regression Detection in Software Deployments through Sequential Testing

概要

ソフトウェアの変更に関する課題感

ソフトウェアの変更によりパフォーマンスのデグレードが生まれてユーザ体験に悪影響を与えないか?を確認したい。

要求は以下

一般的なfixed-nやfixed-timeなA/Bテストでは以下のような課題がある

Sequential Test

Fixed-n Inference の場合

以下は Dvoretzky–Kiefer–Wolfowitz (DKWM) inequality から導出された、累積分布関数のconficence band

image

この不等式が意味すること:「n 個の標本を抽出して分布関数を計算する」というのを100回やったらそのうち(1-alpha)*100は真の分布関数がこの不等式の区間に含まれる

ここで重要なのは n がある値で固定されている、ということ もし n を変えて検定を何回もやると、何回も検定している間に間違っていないのに帰無仮説を棄却してしまうリスク(=第一種過誤の確率)が増大してしまう

Sequential Inference の場合

Fixed-n のconfidence bandをすべての n で成り立つように拡張した "confidence sequence" なるものを考える

image

この不等式が意味すること:「n 個の標本を抽出して分布関数を計算する」というのを100回やったらそのうち(1-alpha)*100は真の分布関数がこの不等式の区間に含まれる、ということが任意の n に対して成り立つ

このように任意の標本サイズ n (あるいは任意の時刻)において推定量に対して成立する不等式を考えることで、、逐次的に供給されるデータに対する検定が可能になる

ケーススタディ:PlayDelayの増加の検出

Hayashi-Yudai commented 3 months ago

H2O-Danube-1.8B Technical Report

中規模なオープンソースLLMのモデルのテクニカルレポート。LLamaやMistralで使われている知見を取り込んだモデル担っていて、学習に使っているデータのトータルトークン数が少ないらしい。それでいて他の同程度の規模のLLMと比較して性能的に良くなっている。

image
nogawanogawa commented 3 months ago

RAFT: Adapting Language Model to Domain Specific RAG

論文URL

https://arxiv.org/abs/2403.10131

著者

Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez

会議

?

背景

近年ではLLMをソフトウェアフレームワークのコード補完から特定の文書コレクションの質問応答など、特殊化されたドメインで採用される動きがある。 このような状況下では、与えられた文書集合に基づく精度を最大化することが主な目標となる。

このような状況下では、RAGやfine tuningが有望な手法となっている。

image

目的

アプローチ

image

memo

https://github.com/nogawanogawa/paper_memo/issues/108

KKaichi commented 3 months ago

Swallow コーパス: 日本語大規模ウェブコーパス

スライド

第6回 Data-Centric AI 勉強会で発表されたらしいです(参加済みの方は2度目となってしまい申し訳ないです...).

概要

日本語大規模言語モデルの学習には,CC-100,mC4,OSCARなどのコーパスの日本語部分が用いられてきた.しかし,日本語テキスツの品質を重視して作られているわけではない.東工大では,Common Crawlのアーカイブから日本語のテキストを独自に抽出・精錬し,約3,121億文字からなる日本語ウェブコーパスを構築した. ※ スライドを用いてお話ししていきます.


おまけ