modelscope / evalscope

A streamlined and customizable framework for efficient large model evaluation and performance benchmarking
https://evalscope.readthedocs.io/en/latest/
Apache License 2.0
263 stars 33 forks source link

执行mteb二阶段检索评估报错 #192

Closed A-cracker closed 1 week ago

A-cracker commented 1 week ago

报错信息: error 配置如下: two_stage_task_cfg = { "eval_backend": "RAGEval", "eval_config": { "tool": "MTEB", "model": [ { "model_name_or_path": "maidalun/bce-embedding-base_v1", "is_cross_encoder": False, "max_seq_length": 512, "prompt": "", "model_kwargs": {"torch_dtype": "auto"}, "encode_kwargs": { "batch_size": 64, }, }, { "model_name_or_path": "maidalun/bce-reranker-base_v1", "is_cross_encoder": True, "max_seq_length": 512, "prompt": "", "model_kwargs": {"torch_dtype": "auto"}, "encode_kwargs": { "batch_size": 32, }, }, ], "eval": { "tasks": ["CMedQAv1"], "verbosity": 3, "output_folder": "outputs", "overwrite_results": True, "limits": 50, "top_k": 10, }, }, }

Yunnglin commented 1 week ago

我们复现一下这个问题

Yunnglin commented 1 week ago

您使用的任务不支持,两阶段评估是在检索任务上进行的,第一阶段是检索,第二阶段在检索的基础上重排,支持的数据集有:

名称 Hub链接 描述 类型 类别 测试样本数量
T2Retrieval C-MTEB/T2Retrieval T2Ranking:一个大规模的中文段落排序基准 检索 s2p 24,832
MMarcoRetrieval C-MTEB/MMarcoRetrieval mMARCO是MS MARCO段落排序数据集的多语言版本 检索 s2p 7,437
DuRetrieval C-MTEB/DuRetrieval 一个大规模的中文网页搜索引擎段落检索基准 检索 s2p 4,000
CovidRetrieval C-MTEB/CovidRetrieval COVID-19新闻文章 检索 s2p 949
CmedqaRetrieval C-MTEB/CmedqaRetrieval 在线医疗咨询文本 检索 s2p 3,999
EcomRetrieval C-MTEB/EcomRetrieval 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
MedicalRetrieval C-MTEB/MedicalRetrieval 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
VideoRetrieval C-MTEB/VideoRetrieval 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
A-cracker commented 1 week ago

您使用的任务不支持,两阶段评估是在检索任务上进行的,第一阶段是检索,第二阶段在检索的基础上重排,支持的数据集有:

名称 Hub链接 描述 类型 类别 测试样本数量 T2Retrieval C-MTEB/T2Retrieval T2Ranking:一个大规模的中文段落排序基准 检索 s2p 24,832 MMarcoRetrieval C-MTEB/MMarcoRetrieval mMARCO是MS MARCO段落排序数据集的多语言版本 检索 s2p 7,437 DuRetrieval C-MTEB/DuRetrieval 一个大规模的中文网页搜索引擎段落检索基准 检索 s2p 4,000 CovidRetrieval C-MTEB/CovidRetrieval COVID-19新闻文章 检索 s2p 949 CmedqaRetrieval C-MTEB/CmedqaRetrieval 在线医疗咨询文本 检索 s2p 3,999 EcomRetrieval C-MTEB/EcomRetrieval 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000 MedicalRetrieval C-MTEB/MedicalRetrieval 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000 VideoRetrieval C-MTEB/VideoRetrieval 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000

384911657-890dd73e-c760-46a0-8e05-d44c8b2f4331 换成了T2Retrieval数据集,但是变成了报AttributeError: 'dict' object has no attribute 'strip'的错误,打印了一下评估异常中断时打印的text内容如下: 384911803-fb489f57-d828-4b29-b666-3e8f870e4e7e

Yunnglin commented 1 week ago

请问使用的evalscope和mteb版本是多少

A-cracker commented 1 week ago

请问使用的evalscope和mteb版本是多少

evalscope==2.0.0 mteb==1.18.6

Yunnglin commented 1 week ago

请拉取main分支代码安装,尝试一下

A-cracker commented 1 week ago

执行通过了。