Om man vill använda chattbottar/språkmodeller regelbundet för vissa uppgifter är det rimligt att skapa benchmarks. Det gör att man kan utvärdera nya modeller, ändrade prompter, med mera. Såna benchmarks behöver vara utformade för att mäta det man faktiskt är ute efter.
Om man vill använda chattbottar/språkmodeller regelbundet för vissa uppgifter är det rimligt att skapa benchmarks. Det gör att man kan utvärdera nya modeller, ändrade prompter, med mera. Såna benchmarks behöver vara utformade för att mäta det man faktiskt är ute efter.