lightblue-tech / lm-evaluation-harness-eleuther

A framework for few-shot evaluation of language models.
https://www.eleuther.ai
MIT License
0 stars 1 forks source link

建築評価データセット作成 #1

Open Peter-Devine opened 3 months ago

Peter-Devine commented 3 months ago

建築評価データセット作成プロジェクト

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・建築に関する質問を集めたcsvファイルの作成 ・Evaluation harnessにコミットするためにYAMLファイルの作成(現在ここ)  - 現在詰まっている箇所は、YAMLファイルのdataset_pathで指定した(事前に作成しておいた)HFのurlからdataを見つけることができない状態です。そもそもHFの作り方に問題があると考えているため、そこを修正しようとしています。

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・建築に関する四択問題及び正誤問題について、Evaluation harnessにコミットするためにYAMLファイルの作成の完了 ・Google Colab上でGPUを用いて様々なaiモデルの正答率を評価(現在ここ)

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Google Colab上でGPUを用いて様々なaiモデルの正答率を評価(https://drive.google.com/drive/folders/17cyRbDM7zjLoKSwQ8Dcsj6FTuHU9jROU) ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットを利用するためにローカルで利用できるEmbedding Modelの作成(現在ここ)

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

・RAGとして用いるための性能を評価する用に、比較となるモデルのMRR、precision@のcsvの作成

Peter-Devine commented 3 months ago

導入

方法

これが達成されたら、モデルをより定性的に評価するためのデモを作成します。これはまた、佐藤さんが Gradio インターフェースの作成について詳しく学ぶ良い機会でもあります。Lightblue でよく行っています。 このデモは次のようになるべきです:

このインターフェースを使うことで、トレーニングされたモデルがどれほど有用か、また、ベクトルに直接基づいてトレーニングするこの方法がどれほど効果的かを完全に評価することができます。

(堀川さんは Gradio インターフェースの作成や GPT の呼び出しに経験がありますので、行き詰まったら彼に助けを求めてください。)

English ### Intro * Many clients have documents encoded using paid cloud embedding methods such as OpenAI's or Cohere AI's embedding models. * However, we may want to query them using RAG systems locally for security reasons, meaning that we will need a local version of these models. * We can train an embedding model directly on the text inputs and embedding outputs of these cloud models in order to make a compatible local model. * Moreover, we may be able to attain some of the accuracy of these highly accurate embedding models in local models. * This could lead to more secure, more accurate RAG. ### Method * Select a pre-embedded dataset to train from * Japanese subset of [Cohere/wikipedia-2023-11-embed-multilingual-v3 ](https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3) * Train a RoBERTa model to output vectors given text based on this dataset * Evaluate the RAG accuracy of this embedding using MRR and P@1,5,10,50,100,500 on [JSQuAD](https://github.com/yahoojapan/JGLUE/tree/main/datasets/jsquad-v1.1) * Evaluate the similarity accuracy of this embedding using Pearson's correlation coefficient with [JSTS](https://github.com/yahoojapan/JGLUE/tree/main/datasets/jsts-v1.1) * Compare the trained model to multiple other popular models * [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) * Please research embedding models... * Summarize the results here Once this has been achieved, we will make a demo to evaluate the model more qualitatively. This would also be a good chance Sato-san to learn more about creating Gradio interfaces, something that we commonly do at Lightblue. This demo should be: * A Gradio UI that accepts a question or prompt as an input. * The system should then use this input as a search query to search the Japanese [Wikipedia dataset from Cohere](https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3). * The system should then show the 5 most similar articles to the query to the user. * Ideally, this data should then be put into an LLM (e.g. GPT3.5) to get a response and show the response to the user in the interface. With this interface, we will be able to fully assess how useful our trained model is, and in turn, assess how effective this method of training directly on vectors is. (Horikawa-san has experience with making Gradio interfaces and calling GPT, so if you get stuck, ask him for help if he is available.)
ShotaSato0916 commented 3 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

・RAGとして用いるための性能を評価する用に、比較となるモデルのMRR、precision@のcsvの作成

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Cohere/wikipedia-2023-11-embed-multilingual-v3のデータセットをローカルで利用するためのEmbedding Modelの作成

・RAGとして用いるための性能を評価する用に、比較となるモデルのMRR、precision@のcsvの作成

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・JSQuADを用いたMRRとPrecision@の評価 -> MRR: 0.696829, @1: 0.621937, @5: 0.786095, @10: 0.829586, @50: 0.899244, @100: 0.919362, @500: 0.953805 ・JSTSを用いたピアソンの相関係数 -> 0.791876 ・JSQuADを用いたMRRとPrecision@の評価 -> MRR: 0.601576, @1: 0.503759, @5: 0.685350, @10: 0.789474, @50: 0.906357, @100: 0.939850, @500: 0.981545

・Gradioインターフェースの作成

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Gradioインターフェースを用いて、質問と数値を受け取り質問に適したWikiの情報を指定した数だけ出力するデモの作成

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Gradioインターフェースを用いて、質問と数値を受け取り質問に適したWikiの情報を指定した数だけ出力するデモの作成

ShotaSato0916 commented 2 months ago

@Peter-Devine @shun1taniguchi 本日の勤務を終了させていただきます。 勤務内容は以下のとおりです。 ・Gradioインターフェースを用いて、質問と数値を受け取り質問に適したWikiの情報を指定した数だけ出力するデモの作成