wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
829 stars 64 forks source link

文本分类中的acc是验证集上的结果还是测试集上的结果呢? #40

Closed graciechen closed 1 year ago

graciechen commented 1 year ago

rt

wangyuxinwhy commented 1 year ago

可以查看这个文件,每个任务的选择会根据数据集来确定 https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/mteb_zh/tasks.py

大部分都是 validation ,少部分是 test

不过这个影响不大,因为 MTEB 的评测,不会使用 validation 做超参数的优化

andyfeih commented 1 year ago

训练的时候看起来没有取训练集,只是确保了mteb-zh和训练数据集不交叉,没有考虑在其他数据集上评测数据污染的问题吗

wangyuxinwhy commented 1 year ago

考虑到了,评测数据集是几个句子分类数据集和 T2Ranking 数据集。对于句子分类数据集来说,m3e 训练数据的构建过程是不会使用到标签信息的,只会使用文本,不存在污染问题。T2Ranking 数据集也没有加入到 m3e 的训练集中,也不存在污染问题。