princeton-nlp / HELMET

The HELMET Benchmark
https://arxiv.org/abs/2410.02694
MIT License
75 stars 9 forks source link