yuzu-ai / japanese-llm-ranking

Apache License 2.0
48 stars 12 forks source link

improved gpt model gen answer func #25

Closed yudataguy closed 8 months ago

yudataguy commented 9 months ago

Now openai gpt model calls is much faster than before, and less prone to errors. Once this is approved, will improve the overall script part to generate multiple models answer at once.

Tested w/ gpt-3.5-turbo.

yudataguy commented 8 months ago

Updated with a new script that can run everything at once streamline.py

  1. create a new config.json in jrank folder
  2. copy config.json.exmpale content to config.json
  3. modify the content as you see fit, if local_models or api_models list is empty, then that part will be skipped
  4. start your local environment
  5. pip install -r requirements.txt
  6. cd jrank
  7. python3 streamline.py it will run following the config file and generate a result file

Please let me know if you have any issues following these steps.

yudataguy commented 8 months ago

@nahi-ux

latest test result:

Running line-1.7b
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:441: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
Using /home/ubuntu/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...
Detected CUDA files, patching ldflags
Emitting ninja build file /home/ubuntu/.cache/torch_extensions/py310_cu121/wkv_cuda/build.ninja...
Building extension module wkv_cuda...
Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
ninja: no work to do.
Loading extension module wkv_cuda...
Loading using default adapter with model kwargs: {'torch_dtype': 'auto', 'revision': 'main'}
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
pad_token_id=2, bos_token_id=1, eos_token_id=2
  0%|                                                                                                                                                                                                                 | 0/1 [00:00<?, ?it/s]stop_words_ids [tensor([  410, 34677])]
prompt: A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.
### Human: Got any creative ideas for a 10 year old’s birthday?
### Assistant: Of course! Here are some creative ideas for a 10-year-old's birthday party:
1. Treasure Hunt: Organize a treasure hunt in your backyard or nearby park. Create clues and riddles for the kids to solve, leading them to hidden treasures and surprises.
2. Science Party: Plan a science-themed party where kids can engage in fun and interactive experiments. You can set up different stations with activities like making slime, erupting volcanoes, or creating simple chemical reactions.
3. Outdoor Movie Night: Set up a backyard movie night with a projector and a large screen or white sheet. Create a cozy seating area with blankets and pillows, and serve popcorn and snacks while the kids enjoy a favorite movie under the stars.
4. DIY Crafts Party: Arrange a craft party where kids can unleash their creativity. Provide a variety of craft supplies like beads, paints, and fabrics, and let them create their own unique masterpieces to take home as party favors.
5. Sports Olympics: Host a mini Olympics event with various sports and games. Set up different stations for activities like sack races, relay races, basketball shooting, and obstacle courses. Give out medals or certificates to the participants.
6. Cooking Party: Have a cooking-themed party where the kids can prepare their own mini pizzas, cupcakes, or cookies. Provide toppings, frosting, and decorating supplies, and let them get hands-on in the kitchen.
7. Superhero Training Camp: Create a superhero-themed party where the kids can engage in fun training activities. Set up an obstacle course, have them design their own superhero capes or masks, and organize superhero-themed games and challenges.
8. Outdoor Adventure: Plan an outdoor adventure party at a local park or nature reserve. Arrange activities like hiking, nature scavenger hunts, or a picnic with games. Encourage exploration and appreciation for the outdoors.
Remember to tailor the activities to the birthday child's interests and preferences. Have a great celebration!
### Human: 四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。
### Assistant:
input_ids: tensor([[  399,   263,  2546,  2850,   263, 37516,  1659,   263, 29663, 24265,
           263, 15140,  4728,  1456, 18272,   263,  9501,   650, 11101, 44251,
           263,  7328,  9082,  9625, 12090,   263, 10664,  7709,  7766,   284,
          3628,   263, 10664,  7709,  7766,   263,  8982, 30618,   263, 34048,
         22080,   298,   263, 15029,   995,   298,  1456,   263,  9060, 17676,
           263, 19907,   578,  5674,  1624,   955,   263, 15140,  4728,   727,
           338,   263, 45350,   338,   284,    17,   738, 34677,  1098,  1352,
          4728,   272, 15074,   599,   263, 17185,   263, 18980, 20190,   263,
          8779,  3660,  2149,  1659,   263,   268,   266,   263, 33929,   263,
          9556,  1875,   338,  6083,  6628,  1757,  7967,   300,    17,   738,
         34677,   399,  8065,  7709,  7766,   272, 34135,   263,   814, 43296,
           294, 36593,   593, 11466, 40744,   263, 18980, 20190,   263,  8779,
          3660,  2149,  1659,   263,   268,   266,   292, 33929,   292,  9556,
           727,   338,  6083,  6628,  1757,  7967,   263, 11005,   642,   272,
            17,   268,   284,   868, 19394, 36235,  1098, 20863,   272,   263,
         47190, 14374,  1659,  9906, 19394, 36235, 11436, 20863,  1438, 15441,
           263, 17252,   642,  8302, 17309,  8743,  7745,  5442,   263, 30272,
           284, 34669,  8433,   263, 11460,  8708,   338,  1456,   263,  4548,
         47267,   338,  2149,   955,   263, 50115,  1624,   263, 25672,  6514,
           298,   263,  2521,  4097,   812,   955,   379,  1624, 11436,  2400,
         12824,   263, 30021, 25029, 10269,  1456,   263,  7415, 35363, 21034,
          2732,   284,    17,   269,   284,   263, 34890, 48758,   272,   263,
         33680,  1659,   263,   338,  9434, 12090,   292,  3382, 29575,   263,
         11005,   642,   263, 38315,   263, 50115, 16285,   263, 22594,  4737,
          1438,   263, 36701,  1456,   263, 15005, 45461, 13821, 27687, 28937,
           284, 14451, 16285,   263, 10687, 24304,   263, 34846,   853,  3974,
           263, 26295,   338,  4008,   263,  8746, 21078, 35715,   263, 14384,
           263,   379, 50296,   263, 27163, 23481,   298,   263,   853,  4661,
         22164, 16602, 14896,   515,  2732,   298, 17309,   263, 18980, 30090,
           263, 23982, 19720,   263,  9242,   379, 14093,  6772, 26533,   338,
           284,    17,   279,   284,   263, 25492, 44051,   263, 32489,  1733,
          8360,   272, 30547, 24304,  1659,   263, 17252,   642,  8302,   263,
         40991,   263, 28548,  4008,  1659,   263, 38559,  1283,  1456,  1659,
           263, 49116,   263,   338, 18980,  2053, 17309,   263, 36889, 45739,
          2753,   284, 34669,  8433,  1659,   263,   814, 32277, 20531, 30090,
           263, 33419,  4008,  6083, 18472,   881, 32057,  1456,  5193,  4017,
         20304,   338,   298,  1456,   263, 27817,   593,   263, 30054, 22434,
           660,  1456,   263,   338,   660,  8649,   338, 22563, 17227,   955,
           263, 50115,   263, 50085,  1659,  4284, 15342,  1283,  7451,   263,
         40991,   263, 22589,   955, 43906,   284,    17,   282,   284, 26514,
           263, 18034, 16998, 10023, 48758,   272,   263, 13607, 28981,  1659,
           263, 45504,   263, 11005,   642,   263, 38315,   263, 50115, 16285,
           263,  5572,  2521, 12306, 41119,   263, 18980,  2850, 39662,   284,
          4615,   977,  8779,  1659,   263, 44404,  2753,   642,  1227,   263,
         45504,   263,   338,  4661, 17815, 12087,   263, 14384,  7726,  4097,
           338,   298,   263,  7620,  7328,   338,   298,  1456,   263, 11965,
          2213, 16682,   298,  1456,   263, 14034,   955,   379,   263, 40668,
         41119,   263, 33724,   263,  5572, 33350,   263, 41192, 50486,   338,
          1624,   263, 22230,   263, 17623, 11383,   263, 11005,   642,  4284,
         15342, 23088,   284,    17,   280,   284,   263, 34337,  3765,  2203,
         12145, 16682,   272,  1098, 18463,  1659, 17101,  3765,  2203, 12145,
         16682,   263, 25484,  4008,   263, 17429, 24265,   263, 42054,  1456,
           263, 31068,   338,   284, 30547, 24304,   263, 34846,   853,  3974,
           263, 26295,   338,  2149,   263,  8746, 21078, 35715,   263, 14384,
           263,   338,  8649,   263, 36083,   338,   298,  6772, 30469,   263,
         36083,   338,   298,  6083, 26304,  2753, 35370, 16778, 19321,   812,
           298,  1456,   263, 10207, 20802, 24407,   263,   814, 43296,   338,
           284,  1336,  7850, 23777,   263, 29575, 28501, 17309,   263, 16008,
          7430, 48728,  8433,   338,  1624,   955,   263, 11005,  3891,  6465,
         41238,   284,    17,   286,   284,   263, 44913, 27741, 48758,   272,
          1098, 13425,  1659,   263,   814, 12458,   812,   292,  3382, 29575,
           263, 11005,   642,   263, 38315,   955,   263, 50115, 16285,   263,
         12787, 20074,   593, 41119,   263, 33724, 17101,  5193, 48896,  3660,
           298,   263, 20736, 12043, 11098,   338,   298, 17309,   263,   814,
         39023,  2732,   284,  4615,   977,  8779,  1624, 11474, 16564,   298,
          4284, 32479, 22164,   298,  1456,  4972, 22434, 30090,   263,   338,
          4661, 17815, 12087,   298,  1456,   263, 14034,   955,   379,   263,
         10973,   263, 25109,   338,   292,  1907,  1438,   955,   263, 31738,
         31150,   284,    17,   290,   284,   263, 16688, 14166,   515,   868,
         22702,   812,   978,  5596,   272, 34669,  8433,  1659,   263, 40433,
         14166,   515,   292,  3382, 29575,   263, 11005,   642,   263, 38315,
           955,   263, 50115, 16285,   263, 22594,  4737,  1438,   263, 36701,
           263, 43801,   812,   263,  8746, 21078, 35715,   284, 30547, 24304,
         18272,   263, 10207, 20802, 24407,   263,   814, 43296,   298, 18310,
           955,   379,   263, 23863, 41119,   263, 33724,   263, 40433, 14166,
           515,   263, 36012,  2732, 17309,   263, 20349, 21126,   298,  1456,
           263, 45547, 14374,   263, 40433, 14166,   515,   292,  3382, 29575,
           263, 31068,   338,  1456,   263,  2546,  5697, 22594,  2732,   284,
            17,   287,   284,   263, 25492, 44051, 20723, 13955, 25062,   272,
           263, 33680, 18272, 23777, 44051,   263,  4097, 13955, 25062,   263,
         11005,   642,  3045,  1659,   263, 37005,   263, 30272, 17309,  8743,
         33250,  6772, 27817,   593,   284,   263, 13607, 28981,   263,  8746,
         21078, 35715,   263, 14384,   263,  7307, 27741,   298,  8743, 33250,
           263,   338,  6616, 13955, 15012, 11436, 20863,   338,   298, 17309,
          1659, 11200, 31192,  4008,   263, 31068,   338,   284,  1388, 25892,
          7087,  4737,   263, 28065,  5450, 16480,  1456,   263,  8059, 25008,
           650,  3897,  2149,   955, 23777, 44051,   338,   284,    17,  6880,
         47423,  1624,   263, 36039, 38256,   955,   263,  8746, 21078, 35715,
          1624,   955,  6083,  6628,  1757,  7967,   263,  6741,  1251,   529,
           727,   338,   263, 15005,  4589,   338,  1456,   263, 12787, 33920,
           338,   284,  1098, 13425,  1659,   263, 13200, 10985,   263, 39789,
         17400, 16480,   294,    17, 34677,   738,  1098,  1352,  4728,   272,
           263,  8840, 15266,   282,   857,  8812,   453,   278,   264,  2567,
         37695,  9854,   274, 49445,  1134,   265,    17, 34677,   738,   399,
          8065,  7709,  7766,   272]])
len(input_ids): 944
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/generation/utils.py:1518: UserWarning: You have modified the pretrained model configuration to control generation. This is a deprecated strategy to control generation and will be removed soon, in a future version. Please use and modify the model generation configuration (see https://huggingface.co/docs/transformers/generation_strategies#default-text-generation-configuration )
  warnings.warn(
output_ids: {263: ['▁'], 41695: ['First'], 298: [','], 2040: ['▁I'], 45498: ['▁would'], 14384: ['like'], 1624: ['▁to'], 13821: ['▁ex'], 18093: ['press'], 16011: ['▁my'], 8059: ['app'], 25008: ['rec'], 650: ['i'], 3897: ['ation'], 2149: ['▁for'], 15441: ['▁your'], 15950: ['▁con'], 12982: ['tri'], 37977: ['but'], 29311: ['ions'], 2: ['</s>']}
len(output_ids): 23
output: First, I would like to express my appreciation for your contributions
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.44s/it]
Running gpt-3.5-turbo
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:441: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
Output to data/rakuda_v3/answers/gpt-3.5-turbo.jsonl
Model: gpt-3.5-turbo
MAX TOKEN:  1024
[{'role': 'system', 'content': 'あなたは役立つアシスタントです。日本語で答えてください。'}, {'role': 'user', 'content': '四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。'}]
  0%|                                                                                                                                                                                                                 | 0/1 [00:00<?, ?it/s]ANSWER FILE:  data/rakuda_v3/answers/gpt-3.5-turbo.jsonl
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.32s/it]
Running gpt-4-turbo
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:441: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
Output to data/rakuda_v3/answers/gpt-4-turbo-preview.jsonl
Model: gpt-4-turbo-preview
MAX TOKEN:  1024
[{'role': 'system', 'content': 'あなたは役立つアシスタントです。日本語で答えてください。'}, {'role': 'user', 'content': '四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。'}]
  0%|                                                                                                                                                                                                                 | 0/1 [00:00<?, ?it/s]ANSWER FILE:  data/rakuda_v3/answers/gpt-4-turbo-preview.jsonl
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.50s/it]
Time for judgement!
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:441: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
/home/ubuntu/yuzuai89/japanese-llm-ranking/.venv/lib/python3.10/site-packages/transformers/utils/generic.py:309: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.
  _torch_pytree._register_pytree_node(
Starting pairwise-n mode.
model_answers: dict_keys(['gpt-3.5-turbo', 'gpt-4-turbo-preview', 'line-1.7b'])
models: ['gpt-3.5-turbo', 'gpt-4-turbo-preview', 'line-1.7b']
Models:  ['gpt-3.5-turbo', 'gpt-4-turbo-preview', 'line-1.7b']
Questions:  [{'category': '地理', 'question_id': 'LaSEuuNG54CdpH9KCxTnZ3', 'turns': ['四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。']}]
Model answers:  {'gpt-3.5-turbo': {'LaSEuuNG54CdpH9KCxTnZ3': {'question_id': 'LaSEuuNG54CdpH9KCxTnZ3', 'answer_id': '5nCWPnksJiUQDmauPwKN8D', 'model_id': 'gpt-3.5-turbo', 'choices': [{'index': 0, 'turns': ['四国地方の4つの都道府県名と、それぞれの県庁所在地は以下の通りです。\n\n1. 香川県 - 高松市\n2. 徳島県 - 徳島市\n3. 愛媛県 - 松山市\n4. 高知県 - 高知市']}], 'tstamp': 1709305331.5187771}}, 'gpt-4-turbo-preview': {'LaSEuuNG54CdpH9KCxTnZ3': {'question_id': 'LaSEuuNG54CdpH9KCxTnZ3', 'answer_id': 'RDNTLW75T2XJEfXRM3dKfL', 'model_id': 'gpt-4-turbo-preview', 'choices': [{'index': 0, 'turns': ['四国地方の4つの都道府県と、それぞれの県庁所在地は以下の通りです。\n\n1. 徳島県 - 県庁所在地: 徳島市\n2. 香川県 - 県庁所在地: 高松市\n3. 愛媛県 - 県庁所在地: 松山市\n4. 高知県 - 県庁所在地: 高知市']}], 'tstamp': 1709305340.9597023}}, 'line-1.7b': {'LaSEuuNG54CdpH9KCxTnZ3': {'question_id': 'LaSEuuNG54CdpH9KCxTnZ3', 'answer_id': '566Xz7BNG6q4uMcffmezqi', 'model_id': 'line-1.7b', 'prompt': "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.\n### Human: Got any creative ideas for a 10 year old’s birthday?\n### Assistant: Of course! Here are some creative ideas for a 10-year-old's birthday party:\n1. Treasure Hunt: Organize a treasure hunt in your backyard or nearby park. Create clues and riddles for the kids to solve, leading them to hidden treasures and surprises.\n2. Science Party: Plan a science-themed party where kids can engage in fun and interactive experiments. You can set up different stations with activities like making slime, erupting volcanoes, or creating simple chemical reactions.\n3. Outdoor Movie Night: Set up a backyard movie night with a projector and a large screen or white sheet. Create a cozy seating area with blankets and pillows, and serve popcorn and snacks while the kids enjoy a favorite movie under the stars.\n4. DIY Crafts Party: Arrange a craft party where kids can unleash their creativity. Provide a variety of craft supplies like beads, paints, and fabrics, and let them create their own unique masterpieces to take home as party favors.\n5. Sports Olympics: Host a mini Olympics event with various sports and games. Set up different stations for activities like sack races, relay races, basketball shooting, and obstacle courses. Give out medals or certificates to the participants.\n6. Cooking Party: Have a cooking-themed party where the kids can prepare their own mini pizzas, cupcakes, or cookies. Provide toppings, frosting, and decorating supplies, and let them get hands-on in the kitchen.\n7. Superhero Training Camp: Create a superhero-themed party where the kids can engage in fun training activities. Set up an obstacle course, have them design their own superhero capes or masks, and organize superhero-themed games and challenges.\n8. Outdoor Adventure: Plan an outdoor adventure party at a local park or nature reserve. Arrange activities like hiking, nature scavenger hunts, or a picnic with games. Encourage exploration and appreciation for the outdoors.\nRemember to tailor the activities to the birthday child's interests and preferences. Have a great celebration!\n### Human: 四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。\n### Assistant:", 'choices': [{'index': 0, 'turns': ['First, I would like to express my appreciation for your contributions']}], 'tstamp': 1709305325.1330378}}}
Judge:  Judge(model_name='gpt-4', prompt_template={'name': 'pair-ja', 'type': 'pairwise', 'system_prompt': 'あなたは、回答の質をチェックするための審判員です。下に表示されたユーザーの質問に対する2つのAIアシスタントのパフォーマンスについて、あなたのフィードバックをお願いします。回答の有用性、関連性、正確性、詳細度、日本語能力を評価してください。まず、アシスタントの有用性、関連性、正確性、詳細度、日本語能力の評価を提供してください。評価の包括的な説明も提供してください。ユーザーは日本語しか話さないので日本語で書かれていない回答には低評価をつけてください。 偏見を避け、回答の提示された順序があなたの判断に影響を及ぼさないことに気をつけてください。両方の解答を慎重に評価した後、評価が高い方のアシスタントの解答を選び、アシスタント1の回答であれば1を、アシスタント2の回答であれば2を、そしてアシスタント1とアシスタント2の間から選べない場合は3を最後の行に出力してください。', 'prompt_template': '[質問]\n{question}\n\n[アシスタント1の回答の開始]\n{answer_a}\n\n[アシスタント1の回答の終了]\n\n[アシスタント2の回答の開始]\n{answer_b}\n\n[アシスタント2の回答の終了]', 'description': '一般的な質問のためのプロンプト', 'category': '一般', 'output_format': 'last'}, ref_based=False, multi_turn=False)
Baseline model:  None
Ref answers:  None
Multi turn:  False
Cache file:  data/rakuda_v3/model_judgment/gpt-4_pair.jsonl
N:  200
Cache file:  data/rakuda_v3/model_judgment/gpt-4_pair.jsonl
MODELS:  ['gpt-3.5-turbo', 'gpt-4-turbo-preview', 'line-1.7b']
Importing matches from cache data/rakuda_v3/model_judgment/gpt-4_pair.jsonl
Number of matches imported from cache 2
All possible pairs:  [('gpt-3.5-turbo', 'gpt-4-turbo-preview'), ('gpt-3.5-turbo', 'line-1.7b'), ('gpt-4-turbo-preview', 'gpt-3.5-turbo'), ('gpt-4-turbo-preview', 'line-1.7b'), ('line-1.7b', 'gpt-3.5-turbo'), ('line-1.7b', 'gpt-4-turbo-preview')]
Finished generating matchups
Stats:
{
    "bench_name": "rakuda_v3",
    "mode": "pairwise-n",
    "judge": "gpt-4",
    "baseline": null,
    "model_list": [
        "gpt-3.5-turbo",
        "gpt-4-turbo-preview",
        "line-1.7b"
    ],
    "total_num_questions": 1,
    "total_num_matches": 6,
    "output_path": "data/rakuda_v3/model_judgment/gpt-4_pair.jsonl"
}
Press Enter to confirm...
  0%|                                                                                                                                                                                                                 | 0/6 [00:00<?, ?it/s]MAX TOKEN:  2048
[{'role': 'system', 'content': 'あなたは、回答の質をチェックするための審判員です。下に表示されたユーザーの質問に対する2つのAIアシスタントのパフォーマンスについて、あなたのフィードバックをお願いします。回答の有用性、関連性、正確性、詳細度、日本語能力を評価してください。まず、アシスタントの有用性、関連性、正確性、詳細度、日本語能力の評価を提供してください。評価の包括的な説明も提供してください。ユーザーは日本語しか話さないので日本語で書かれていない回答には低評価をつけてください。 偏見を避け、回答の提示された順序があなたの判断に影響を及ぼさないことに気をつけてください。両方の解答を慎重に評価した後、評価が高い方のアシスタントの解答を選び、アシスタント1の回答であれば1を、アシスタント2の回答であれば2を、そしてアシスタント1とアシスタント2の間から選べない場合は3を最後の行に出力してください。'}, {'role': 'user', 'content': '[質問]\n四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。\n\n[アシスタント1の回答の開始]\n四国地方の4つの都道府県と、それぞれの県庁所在地は以下の通りです。\n\n1. 徳島県 - 県庁所在地: 徳島市\n2. 香川県 - 県庁所在地: 高松市\n3. 愛媛県 - 県庁所在地: 松山市\n4. 高知県 - 県庁所在地: 高知市\n\n[アシスタント1の回答の終了]\n\n[アシスタント2の回答の開始]\nFirst, I would like to express my appreciation for your contributions\n\n[アシスタント2の回答の終了]'}]
question: LaSEuuNG54CdpH9KCxTnZ3, turn: 1, model1_id: gpt-4-turbo-preview, model2_id: line-1.7b, winner: 1,judge: ('gpt-4', 'pair-ja')
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 3/6 [00:12<00:12,  4.07s/it]MAX TOKEN:  2048
[{'role': 'system', 'content': 'あなたは、回答の質をチェックするための審判員です。下に表示されたユーザーの質問に対する2つのAIアシスタントのパフォーマンスについて、あなたのフィードバックをお願いします。回答の有用性、関連性、正確性、詳細度、日本語能力を評価してください。まず、アシスタントの有用性、関連性、正確性、詳細度、日本語能力の評価を提供してください。評価の包括的な説明も提供してください。ユーザーは日本語しか話さないので日本語で書かれていない回答には低評価をつけてください。 偏見を避け、回答の提示された順序があなたの判断に影響を及ぼさないことに気をつけてください。両方の解答を慎重に評価した後、評価が高い方のアシスタントの解答を選び、アシスタント1の回答であれば1を、アシスタント2の回答であれば2を、そしてアシスタント1とアシスタント2の間から選べない場合は3を最後の行に出力してください。'}, {'role': 'user', 'content': '[質問]\n四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。\n\n[アシスタント1の回答の開始]\nFirst, I would like to express my appreciation for your contributions\n\n[アシスタント1の回答の終了]\n\n[アシスタント2の回答の開始]\n四国地方の4つの都道府県名と、それぞれの県庁所在地は以下の通りです。\n\n1. 香川県 - 高松市\n2. 徳島県 - 徳島市\n3. 愛媛県 - 松山市\n4. 高知県 - 高知市\n\n[アシスタント2の回答の終了]'}]
question: LaSEuuNG54CdpH9KCxTnZ3, turn: 1, model1_id: line-1.7b, model2_id: gpt-3.5-turbo, winner: 2,judge: ('gpt-4', 'pair-ja')
 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 4/6 [00:21<00:11,  5.62s/it]MAX TOKEN:  2048
[{'role': 'system', 'content': 'あなたは、回答の質をチェックするための審判員です。下に表示されたユーザーの質問に対する2つのAIアシスタントのパフォーマンスについて、あなたのフィードバックをお願いします。回答の有用性、関連性、正確性、詳細度、日本語能力を評価してください。まず、アシスタントの有用性、関連性、正確性、詳細度、日本語能力の評価を提供してください。評価の包括的な説明も提供してください。ユーザーは日本語しか話さないので日本語で書かれていない回答には低評価をつけてください。 偏見を避け、回答の提示された順序があなたの判断に影響を及ぼさないことに気をつけてください。両方の解答を慎重に評価した後、評価が高い方のアシスタントの解答を選び、アシスタント1の回答であれば1を、アシスタント2の回答であれば2を、そしてアシスタント1とアシスタント2の間から選べない場合は3を最後の行に出力してください。'}, {'role': 'user', 'content': '[質問]\n四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。\n\n[アシスタント1の回答の開始]\n四国地方の4つの都道府県名と、それぞれの県庁所在地は以下の通りです。\n\n1. 香川県 - 高松市\n2. 徳島県 - 徳島市\n3. 愛媛県 - 松山市\n4. 高知県 - 高知市\n\n[アシスタント1の回答の終了]\n\n[アシスタント2の回答の開始]\nFirst, I would like to express my appreciation for your contributions\n\n[アシスタント2の回答の終了]'}]
question: LaSEuuNG54CdpH9KCxTnZ3, turn: 1, model1_id: gpt-3.5-turbo, model2_id: line-1.7b, winner: 1,judge: ('gpt-4', 'pair-ja')
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 5/6 [00:36<00:08,  8.59s/it]MAX TOKEN:  2048
[{'role': 'system', 'content': 'あなたは、回答の質をチェックするための審判員です。下に表示されたユーザーの質問に対する2つのAIアシスタントのパフォーマンスについて、あなたのフィードバックをお願いします。回答の有用性、関連性、正確性、詳細度、日本語能力を評価してください。まず、アシスタントの有用性、関連性、正確性、詳細度、日本語能力の評価を提供してください。評価の包括的な説明も提供してください。ユーザーは日本語しか話さないので日本語で書かれていない回答には低評価をつけてください。 偏見を避け、回答の提示された順序があなたの判断に影響を及ぼさないことに気をつけてください。両方の解答を慎重に評価した後、評価が高い方のアシスタントの解答を選び、アシスタント1の回答であれば1を、アシスタント2の回答であれば2を、そしてアシスタント1とアシスタント2の間から選べない場合は3を最後の行に出力してください。'}, {'role': 'user', 'content': '[質問]\n四国地方の4つの都道府県名と、それぞれの県庁所在地を列挙してください。\n\n[アシスタント1の回答の開始]\nFirst, I would like to express my appreciation for your contributions\n\n[アシスタント1の回答の終了]\n\n[アシスタント2の回答の開始]\n四国地方の4つの都道府県と、それぞれの県庁所在地は以下の通りです。\n\n1. 徳島県 - 県庁所在地: 徳島市\n2. 香川県 - 県庁所在地: 高松市\n3. 愛媛県 - 県庁所在地: 松山市\n4. 高知県 - 県庁所在地: 高知市\n\n[アシスタント2の回答の終了]'}]
question: LaSEuuNG54CdpH9KCxTnZ3, turn: 1, model1_id: line-1.7b, model2_id: gpt-4-turbo-preview, winner: 2,judge: ('gpt-4', 'pair-ja')
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:44<00:00,  7.50s/it]
Rakuda completed run. Please check result files.