wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
826 stars 64 forks source link

m3e训练的时候使用的数据集是hugg上面列出的数据集,训练和测试集和验证集一起用来训练了吗? #119

Closed NLPJCL closed 8 months ago

NLPJCL commented 8 months ago

🐛 bug 说明

    dataset_dict = load_from_disk(str(data_dir))
    if isinstance(dataset_dict, dict):
        dataset: HfDataset = concatenate_datasets(list(dataset_dict.values()))
    else:
        dataset = dataset_dict
       加载训练集的代码,看起来好像是的?

Python Version

None

wangyuxinwhy commented 8 months ago

嗯嗯,都使用了,但是用来做评测的数据集是 M3E 从来没有见过的域外数据集。