Open GENZITSU opened 1 year ago
表題の通り
単語ベクトル:chiVe Version v1.2 mc5 語彙数 3,197,456 次元数: 300 求める近傍の点: 10個 Faissのインデックス: IndexFlatL2 つまり、約319万のベクトルのANNのインデックスに対して、約319万回の近似最近傍探索の操作を行って各10件の近傍点を求めるという操作を行います。
約160倍の高速化というギャグ
GPUの強さがよくわかる...
株式会社レアゾンホールディングスがwisper large v2相当の日本語音声認識モデルを公開
性能が頭おかしいのにapach-2.0で公開してくれるという神仕様...
半教師あり的にアライメントを適用することで、ワンセグ放送録画データから教師データを作成したとのこと
「ReazonSpeech」では、ワンセグ放送の録画データから音声コーパスを自動抽出しています。 録画データから音声コーパスを構築するためには、発話単位で音声と字幕テキストを対応付ける処理(アラインメント処理と呼びます)が必要になります。 「ReazonSpeech」では、まず最初に小規模ではあるものの自由なライセンスで利用可能な Mozilla Common Voiceという音声コーパスから構築した音声認識モデルでアラインメント処理を行い、そこで得られた音声コーパスを元にして再度アラインメント処理を実行する、という過程を幾世代も重ねることによって少しずつ音声コーパスのサイズを増やしました。現在のサイズは19,000時間ですが、今後さらに規模を拡大する予定です。
頭が上がらん...
OpenAI, Google Text-to-Speech API, Google YouTube Data API, serpapiを用いてAIVtuberっぽいことをするコード
demoわりとすごい
メモ
システムパーフォマンスのボトルネックとなる、プロセッサ、ネットワーク、ディスクの負荷をどのように調査し対応するかを解説しているスライド
ありがたや
日本げ言語理解ベンチマークJGLUEの中で、常識が必要とされる問題を集めたJCommonsenseQAをGPT3で解いてみると、正答率 85.4%を達成できたとのこと
人間の正答率や強強モデル達には及ばないものの、日本語に特化していないモデル & JGLUEで学習しているわけではない(本当にそうかはわからないが)ことを考えると割とすごいのかも
人間の正答率は(devデータにおいて)98.6% ですが、モデルの正答率は早稲田大学 RoBERTa (large) で 90.7%、LINE の HyperCLOVA でも 93.6% です
オープンデータですごい結果がでても、学習データに入ってるかもなという疑心暗鬼に陥ってしまうのがLLMの悪いところ…
少量の教師データ + 大量のラベル無しデータという設定でBERTを学習させる際のtipsを紹介
少量の教師データでモデル学習 → pseudo Label という王道から、大量のラベル無しデータを活用したMLM、Teacher-Studentの枠組みでpseudo labelの蒸留を行うMeta Pseudo Labelsの3つを紹介している。
今回の実験設定ではMPLが最も良かったがこいつはチューニングが難しいので、現実的にはpsedo label or MLMの2択になってくるか
大規模言語モデルから望ましい回答を得るためのpromp を自動的に探索するための手法 prompt-tuningを実装付きで紹介している記事
prompt-tuningには大きく分けて以下のような種類がある
- 既存のボキャブラリーからPromptに最適なトークン列を探索する方法
- Promptを固定長のトークン列とし,そのトークン列に対する埋め込みベクトルを最適化する方法
- Promptに対する学習パラメタを言語モデルの各層が保持し,それらを最適化する方法
今回は2番目の埋め込みベクトルを学習させる方法を試している。この方法では埋め込みベクトルに対しての学習パラメータのみを保持しているので普通のGPUで学習が可能
学習させたさせた結果。
かなり低いものの、prompt tuningの可能性は感じさせる結果
tuningの結果えられたpromptはなかなかにカオスだったとのこと (生成されたembegging列の最近傍の単語をとっているからかもしれないが)
prompt-tuningの話ほとんど知らなかったので勉強になった。今後さらに発展しそうだ
動画配信サービスにおけるインプレッション向上のためのサムネイル選定にOff Policy Evaluationを活用した事例の紹介
今回は、過去の配信ログ(ランダム)を用いて、アルゴリズムの選択と配信ログの選択が同じ時だけ評価に利用するというReplay Methodを用いてアルゴリズムを学習させ、CTRを改善させた。
ただ単にReplay Methondを適用しただけでは、精度が低下し、コンテンツ未視聴郡と視聴済み郡に分けてバンディットを学習させたところ大きく指標を改善させたところが面白い。
とても深く事象を分析した上で、結果を出しているのが良い。
自然言語処理用のaugmentationライブラリ
実装されているaugmentation種類が約20種類以上あり、単純無文字の置き換えから、BERTによる類似語置き換え、逆翻訳、タイプミス、OCRエンジンの誤りなどが容易されている。
そして、言語関係ということで、信号に対するaugmentationや音声に対するaugmentationなどまでサポートされている ...
transformers系のモデルを手軽に扱えるaugmentationライブラリを探していたのでとても助かる
単一画像から、画像特徴量 + OCR結果 + 画像サイズ のマルチモーダル情報を抜き出すことで、広告審査モデルの精度を改善した事例の紹介
審査対象の広告には文字列が多く含まれており、文字列情報も審査対象であることからOCR結果を活用することを思いついたとのこと
全ての情報を使うことで、単一の画像特徴のみを用いるより+7%ほど精度が向上したとのこと
面白いアイデア
PAKSHAが公開したsentence transformerモデル
SimCSEをもちいてcl-tohoku/bert-base-japanese-v2 を JSNLI データセットにて学習させたもの
メモ
Metaから発表された学習率の調整が不要な学習理論 d-adaptationを犬の分類データセット(dog-breed-identification)で検証した記録
このデータについて言えば、adam-sam > adam > d-adaptaion adamの順になった
ちなみに d-adaptation adamはこんな感じ
論文上の結果 (難しそうなデータのやつだけ抜粋)
論文の実験結果の方をみたところ、物によっては対して変わらなさそうなので、一旦静観がよさそう
文章生成が可能なBARTモデルをビジネスニュースドメインで学習させたものをMITライセンスで公開
約3年間半分(2019-01-01~2022-07-12)の約2100万のニュース記事(約2.9億文)を事前学習データに使い、BART-baseサイズのモデルを事前学習しました。 事前学習の期間は、Google TPU v2-8(64 GiBメモリ)で約45日間です。
メモ
令和最新版エンジニアのリーダーシップ論
エンジニアリングチームの構成員が相互にリーダーシップを発揮し合うためのtipsがまとめられている
ボールを浮かさない
事を進める担当者をはっきりさせておく
解散の目安をはっきりさせる
会話例
たしかに、終わりどきがわからないのはストレスなことがおおいな...
関連部署に伝達する、ただ騒ぐ
絶賛する&なぐさめる
ドキュメントを書く
チケットを立てる
全然わからないと言う
コードレビュー、しにくいことを伝える
コメント
名文すぎる。100回読め枠
出典
令和最新版エンジニアのリーダーシップ論