文本分类中的acc是验证集上的结果还是测试集上的结果呢？

wangyuxinwhy / uniem

unified embedding model

Apache License 2.0

829 stars 64 forks source link

Closed graciechen closed 1 year ago

graciechen commented 1 year ago

wangyuxinwhy commented 1 year ago

可以查看这个文件，每个任务的选择会根据数据集来确定 https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/mteb_zh/tasks.py

大部分都是 validation ，少部分是 test

不过这个影响不大，因为 MTEB 的评测，不会使用 validation 做超参数的优化

andyfeih commented 1 year ago

训练的时候看起来没有取训练集，只是确保了mteb-zh和训练数据集不交叉，没有考虑在其他数据集上评测数据污染的问题吗

wangyuxinwhy commented 1 year ago

考虑到了，评测数据集是几个句子分类数据集和 T2Ranking 数据集。对于句子分类数据集来说，m3e 训练数据的构建过程是不会使用到标签信息的，只会使用文本，不存在污染问题。T2Ranking 数据集也没有加入到 m3e 的训练集中，也不存在污染问题。