建築評価データセット作成

Peter-Devine commented 3 months ago

建築評価データセット作成プロジェクト

Googleで建築データが入っているサイト等を検索
サイトから選択肢質問と回答をスクレイピング
- このような形
データセットをEval Harnessにコミット
- こんな感じでコミットできます

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・建築に関する質問を集めたcsvファイルの作成・Evaluation harnessにコミットするためにYAMLファイルの作成(現在ここ) 　- 現在詰まっている箇所は、YAMLファイルのdataset_pathで指定した(事前に作成しておいた)HFのurlからdataを見つけることができない状態です。そもそもHFの作り方に問題があると考えているため、そこを修正しようとしています。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・建築に関する四択問題及び正誤問題について、Evaluation harnessにコミットするためにYAMLファイルの作成の完了・Google Colab上でGPUを用いて様々なaiモデルの正答率を評価(現在ここ)

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Google Colab上でGPUを用いて様々なaiモデルの正答率を評価(https://drive.google.com/drive/folders/17cyRbDM7zjLoKSwQ8Dcsj6FTuHU9jROU) ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットを利用するためにローカルで利用できるEmbedding Modelの作成(現在ここ)

一般的な埋め込みモデルから始めて、そこで見つけた課題に応じて適宜変更させていく予定です。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

1024次元のベクトルを表現し、かつ多言語に対応できるFacebookAI/xlm-roberta-largeをベースとし、このモデルをPytorchを用いた全結合によって目的のモデルに近づける様に試しています。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

様々な種類のdatasetsを学習させても特定の単語(地理系、学問系、歴史等)が出やすい状態にいます(実行場所)。これが、データ分布による問題なのか、根本的にそういった系統によってしまう問題なのかを特定する作業に取り掛かっています。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

xlm-roberta-largeを用いると、指定のデータセットのembに合うように学習をさせることが難しいことが判明したため、intfloat/multilingual-e5-largeを代わりに用いることにした。現在、このモデルは以前のものよりは学習させやすそうなことが分かっており、どのように学習させるかを決める段階にいる。 https://colab.research.google.com/drive/1xDlAtz_Ol_HfaKBJsCGTq-89Cfpucxkm?hl=ja#scrollTo=IPRDRY8UAAC9

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

xlm-roberta-largeを用いて過学習させようと試みたとき、評価した際に過学習させようとしていた結果を表さず違う結果を示したため、このモデルは不採用とした。次に、multilingual-e5-largeモデルを用いたところ、Alan Turingについて過学習させることに成功した。
このモデルについて、今までよく出てきた結果(地理系、学問系、歴史等)ばかり学習しないように、データセットをk-means法で分類し、それぞれに重みをつけることで均等に学習しようと試みた。現在のところ、目立った改善は見られておらず元のモデルと似たような単語を出す状況にある(実行場所)。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

重みをつけたデータセットの学習を試みたところ、textの入力に対する出力が今までとあまり変化がなかった。また、それらの出力がどのような分類にいるか調べたところ、それぞれがバラバラであまり特徴もないようなところにいた。したがって、重みをつけた学習は適していないと考えた。(どちらかというと学習があまり進んでおらず元のベクトルの方向を維持していそうである)
1epochで大きなデータ数で学習させる方針とし、それに適した学習率を探した。1e-4 ~ 1e-5が適していると考えられるデータを得た。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

学習率1e-5を用いると安定して学習が進んでいるようなデータが得られたため、language='simple'に含まれる64.6万件のdataのうち、titleが被らないものを全て取り出し(約20.8万件)epoch1で学習させている。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

前回の学習の結果、学習がうまく進んでいることが確認された。
日本語のデータセットを取り出し(データ数6.63M件)同様に学習させている

・RAGとして用いるための性能を評価する用に、比較となるモデルのMRR、precision@のcsvの作成

Peter-Devine commented 3 months ago

導入

多くのクライアントは、OpenAI や Cohere AI の埋め込みモデルなどの有料クラウド埋め込みメソッドを使用してドキュメントをエンコードしています。
しかし、セキュリティ上の理由から、これらをローカルで RAG システムを使用してクエリしたい場合があります。これには、これらのモデルのローカルバージョンが必要です。
クラウドモデルのテキスト入力と埋め込み出力に直接基づいて埋め込みモデルをトレーニングすることで、互換性のあるローカルモデルを作成できます。
さらに、これらの高精度埋め込みモデルの一部の精度をローカルモデルで達成できる可能性があります。
これは、よりセキュアで、より正確な RAG につながる可能性があります。

方法

トレーニング用に事前に埋め込まれたデータセットを選択
- Cohere/wikipedia-2023-11-embed-multilingual-v3 の日本語サブセット
このデータセットに基づいて、テキストを入力としてベクトルを出力する RoBERTa モデルをトレーニング
JSQuAD を用いて、MRR および P@1,5,10,50,100,500 でこの埋め込みの RAG の精度を評価
JSTS を使用して、ピアソンの相関係数によるこの埋め込みの類似性精度を評価
トレーニングされたモデルを他の複数の人気モデルと比較
- BAAI/bge-m3
- 埋め込みモデルをリサーチしてください...
結果をここにまとめる

これが達成されたら、モデルをより定性的に評価するためのデモを作成します。これはまた、佐藤さんが Gradio インターフェースの作成について詳しく学ぶ良い機会でもあります。Lightblue でよく行っています。このデモは次のようになるべきです：

質問またはプロンプトを入力として受け付ける Gradio UI。
システムはこの入力を検索クエリとして使用し、日本語の Cohere の Wikipedia データセットを検索します。
システムはクエリに最も類似した記事を 5 つユーザーに表示します。
理想的には、このデータを LLM（例えば GPT-3.5）に入力してレスポンスを取得し、インターフェースにそのレスポンスを表示します。

このインターフェースを使うことで、トレーニングされたモデルがどれほど有用か、また、ベクトルに直接基づいてトレーニングするこの方法がどれほど効果的かを完全に評価することができます。

（堀川さんは Gradio インターフェースの作成や GPT の呼び出しに経験がありますので、行き詰まったら彼に助けを求めてください。）

English

### Intro * Many clients have documents encoded using paid cloud embedding methods such as OpenAI's or Cohere AI's embedding models. * However, we may want to query them using RAG systems locally for security reasons, meaning that we will need a local version of these models. * We can train an embedding model directly on the text inputs and embedding outputs of these cloud models in order to make a compatible local model. * Moreover, we may be able to attain some of the accuracy of these highly accurate embedding models in local models. * This could lead to more secure, more accurate RAG. ### Method * Select a pre-embedded dataset to train from * Japanese subset of [Cohere/wikipedia-2023-11-embed-multilingual-v3 ](https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3) * Train a RoBERTa model to output vectors given text based on this dataset * Evaluate the RAG accuracy of this embedding using MRR and P@1,5,10,50,100,500 on [JSQuAD](https://github.com/yahoojapan/JGLUE/tree/main/datasets/jsquad-v1.1) * Evaluate the similarity accuracy of this embedding using Pearson's correlation coefficient with [JSTS](https://github.com/yahoojapan/JGLUE/tree/main/datasets/jsts-v1.1) * Compare the trained model to multiple other popular models * [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) * Please research embedding models... * Summarize the results here Once this has been achieved, we will make a demo to evaluate the model more qualitatively. This would also be a good chance Sato-san to learn more about creating Gradio interfaces, something that we commonly do at Lightblue. This demo should be: * A Gradio UI that accepts a question or prompt as an input. * The system should then use this input as a search query to search the Japanese [Wikipedia dataset from Cohere](https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3). * The system should then show the 5 most similar articles to the query to the user. * Ideally, this data should then be put into an LLM (e.g. GPT3.5) to get a response and show the response to the user in the interface. With this interface, we will be able to fully assess how useful our trained model is, and in turn, assess how effective this method of training directly on vectors is. (Horikawa-san has experience with making Gradio interfaces and calling GPT, so if you get stuck, ask him for help if he is available.)

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

日本語のデータセットの学習について、メモリ容量を超えてしまう等の問題があったため対処した。Iterable Dataset型やDataset型をうまく使うことで、メモリは5GB弱ほどの使用に抑えることができた。現在学習中であり24時間ほどで学習が完了する予定である。

・RAGとして用いるための性能を評価する用に、比較となるモデルのMRR、precision@のcsvの作成

JSQuADとTyDiを用いた測定

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

学習が完了していた。次回で自分が打ち込んだ文章に対する返答や、下の方法で評価を行う

・RAGとして用いるための性能を評価する用に、比較となるモデルのMRR、precision@のcsvの作成

JSQuAD、TyDi、JSTSの比較データを揃えた

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・JSQuADを用いたMRRとPrecision@の評価 -> MRR: 0.696829, @1: 0.621937, @5: 0.786095, @10: 0.829586, @50: 0.899244, @100: 0.919362, @500: 0.953805 ・JSTSを用いたピアソンの相関係数 -> 0.791876 ・JSQuADを用いたMRRとPrecision@の評価 -> MRR: 0.601576, @1: 0.503759, @5: 0.685350, @10: 0.789474, @50: 0.906357, @100: 0.939850, @500: 0.981545

・Gradioインターフェースの作成

簡単に作ってみたものの、すべてのデータをストリーミングで読み込んで比較しようとしているため、結果を出すまでにおおよそ3時間くらいかかると思われる(url)。扱うデータの絞り方やコードの書き方を検討する必要がある。

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Gradioインターフェースを用いて、質問と数値を受け取り質問に適したWikiの情報を指定した数だけ出力するデモの作成

日本語のwikipediaのすべてのデータセットを一度ロードしローカルに保存した。現在、そのファイルからベクトルのデータだけ抜き出し、IncrementalPCAを用いて次元を削除することでなるべく高速に応答できるようにしている。(参考)

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Gradioインターフェースを用いて、質問と数値を受け取り質問に適したWikiの情報を指定した数だけ出力するデモの作成

モデルの保存・読み込みが正しく行われていなかったため、正しく動くようコードを書き換えた
IncrementalPCAを用いた10次元のベクトルだと精度が不十分すぎたため、適切な次元を探した
50次元に削減したベクトルを作成した(50次元で1000個にデータを絞り、残りのデータを1024次元でさらに比較した)、それを用いたGradioインターフェースを立ち上げた

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。勤務内容は以下のとおりです。・Gradioインターフェースを用いて、質問と数値を受け取り質問に適したWikiの情報を指定した数だけ出力するデモの作成

cosine_similarity、matmul、mse_lossを用いた評価方法の精度と応答速度を検証した。cosine_similarityは精度がそこそこ高く応答速度が中くらい、matmulは精度はあまりよくなく応答速度は速い、mse_lossは精度が安定して高く応答速度は遅いと評価しました。
次元を減らしたベクトルで評価しデータを絞った際に、検索したい目標のデータが含まれていた場合、精度は大きく上昇することが確認できた。
100次元に削減したベクトル(numpy形式で~5.3GB)をmatmulで評価し、上位5000件のデータを再度1024次元で評価することで割と精度の良いGradioインターフェースを作ることができた。

lightblue-tech / lm-evaluation-harness-eleuther

建築評価データセット作成 #1

導入

方法