princeton-nlp / HELMET

The HELMET Benchmark
https://arxiv.org/abs/2410.02694
MIT License
51 stars 7 forks source link