执行mteb二阶段检索评估报错

A-cracker commented 1 week ago

报错信息： error 配置如下： two_stage_task_cfg = { "eval_backend": "RAGEval", "eval_config": { "tool": "MTEB", "model": [ { "model_name_or_path": "maidalun/bce-embedding-base_v1", "is_cross_encoder": False, "max_seq_length": 512, "prompt": "", "model_kwargs": {"torch_dtype": "auto"}, "encode_kwargs": { "batch_size": 64, }, }, { "model_name_or_path": "maidalun/bce-reranker-base_v1", "is_cross_encoder": True, "max_seq_length": 512, "prompt": "", "model_kwargs": {"torch_dtype": "auto"}, "encode_kwargs": { "batch_size": 32, }, }, ], "eval": { "tasks": ["CMedQAv1"], "verbosity": 3, "output_folder": "outputs", "overwrite_results": True, "limits": 50, "top_k": 10, }, }, }

Yunnglin commented 1 week ago

我们复现一下这个问题

Yunnglin commented 1 week ago

您使用的任务不支持，两阶段评估是在检索任务上进行的，第一阶段是检索，第二阶段在检索的基础上重排，支持的数据集有：

名称	Hub链接	描述	类型	类别	测试样本数量
T2Retrieval	C-MTEB/T2Retrieval	T2Ranking：一个大规模的中文段落排序基准	检索	s2p	24,832
MMarcoRetrieval	C-MTEB/MMarcoRetrieval	mMARCO是MS MARCO段落排序数据集的多语言版本	检索	s2p	7,437
DuRetrieval	C-MTEB/DuRetrieval	一个大规模的中文网页搜索引擎段落检索基准	检索	s2p	4,000
CovidRetrieval	C-MTEB/CovidRetrieval	COVID-19新闻文章	检索	s2p	949
CmedqaRetrieval	C-MTEB/CmedqaRetrieval	在线医疗咨询文本	检索	s2p	3,999
EcomRetrieval	C-MTEB/EcomRetrieval	从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
MedicalRetrieval	C-MTEB/MedicalRetrieval	从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
VideoRetrieval	C-MTEB/VideoRetrieval	从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000

A-cracker commented 1 week ago

您使用的任务不支持，两阶段评估是在检索任务上进行的，第一阶段是检索，第二阶段在检索的基础上重排，支持的数据集有：

名称 Hub链接描述类型类别测试样本数量 T2Retrieval C-MTEB/T2Retrieval T2Ranking：一个大规模的中文段落排序基准检索 s2p 24,832 MMarcoRetrieval C-MTEB/MMarcoRetrieval mMARCO是MS MARCO段落排序数据集的多语言版本检索 s2p 7,437 DuRetrieval C-MTEB/DuRetrieval 一个大规模的中文网页搜索引擎段落检索基准检索 s2p 4,000 CovidRetrieval C-MTEB/CovidRetrieval COVID-19新闻文章检索 s2p 949 CmedqaRetrieval C-MTEB/CmedqaRetrieval 在线医疗咨询文本检索 s2p 3,999 EcomRetrieval C-MTEB/EcomRetrieval 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集检索 s2p 1,000 MedicalRetrieval C-MTEB/MedicalRetrieval 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集检索 s2p 1,000 VideoRetrieval C-MTEB/VideoRetrieval 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集检索 s2p 1,000

384911657-890dd73e-c760-46a0-8e05-d44c8b2f4331 换成了T2Retrieval数据集，但是变成了报AttributeError: 'dict' object has no attribute 'strip'的错误，打印了一下评估异常中断时打印的text内容如下： 384911803-fb489f57-d828-4b29-b666-3e8f870e4e7e

Yunnglin commented 1 week ago

请问使用的evalscope和mteb版本是多少

A-cracker commented 1 week ago

请问使用的evalscope和mteb版本是多少

evalscope==2.0.0 mteb==1.18.6

Yunnglin commented 1 week ago

请拉取main分支代码安装，尝试一下

A-cracker commented 1 week ago

执行通过了。

modelscope / evalscope

执行mteb二阶段检索评估报错 #192