Closed A-cracker closed 1 week ago
我们复现一下这个问题
您使用的任务不支持,两阶段评估是在检索任务上进行的,第一阶段是检索,第二阶段在检索的基础上重排,支持的数据集有:
名称 | Hub链接 | 描述 | 类型 | 类别 | 测试样本数量 |
---|---|---|---|---|---|
T2Retrieval | C-MTEB/T2Retrieval | T2Ranking:一个大规模的中文段落排序基准 | 检索 | s2p | 24,832 |
MMarcoRetrieval | C-MTEB/MMarcoRetrieval | mMARCO是MS MARCO段落排序数据集的多语言版本 | 检索 | s2p | 7,437 |
DuRetrieval | C-MTEB/DuRetrieval | 一个大规模的中文网页搜索引擎段落检索基准 | 检索 | s2p | 4,000 |
CovidRetrieval | C-MTEB/CovidRetrieval | COVID-19新闻文章 | 检索 | s2p | 949 |
CmedqaRetrieval | C-MTEB/CmedqaRetrieval | 在线医疗咨询文本 | 检索 | s2p | 3,999 |
EcomRetrieval | C-MTEB/EcomRetrieval | 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 | 检索 | s2p | 1,000 |
MedicalRetrieval | C-MTEB/MedicalRetrieval | 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 | 检索 | s2p | 1,000 |
VideoRetrieval | C-MTEB/VideoRetrieval | 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 | 检索 | s2p | 1,000 |
您使用的任务不支持,两阶段评估是在检索任务上进行的,第一阶段是检索,第二阶段在检索的基础上重排,支持的数据集有:
名称 Hub链接 描述 类型 类别 测试样本数量 T2Retrieval C-MTEB/T2Retrieval T2Ranking:一个大规模的中文段落排序基准 检索 s2p 24,832 MMarcoRetrieval C-MTEB/MMarcoRetrieval mMARCO是MS MARCO段落排序数据集的多语言版本 检索 s2p 7,437 DuRetrieval C-MTEB/DuRetrieval 一个大规模的中文网页搜索引擎段落检索基准 检索 s2p 4,000 CovidRetrieval C-MTEB/CovidRetrieval COVID-19新闻文章 检索 s2p 949 CmedqaRetrieval C-MTEB/CmedqaRetrieval 在线医疗咨询文本 检索 s2p 3,999 EcomRetrieval C-MTEB/EcomRetrieval 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000 MedicalRetrieval C-MTEB/MedicalRetrieval 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000 VideoRetrieval C-MTEB/VideoRetrieval 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
换成了T2Retrieval数据集,但是变成了报AttributeError: 'dict' object has no attribute 'strip'的错误,打印了一下评估异常中断时打印的text内容如下:
请问使用的evalscope和mteb版本是多少
请问使用的evalscope和mteb版本是多少
evalscope==2.0.0 mteb==1.18.6
请拉取main分支代码安装,尝试一下
执行通过了。
报错信息: 配置如下:
two_stage_task_cfg = { "eval_backend": "RAGEval", "eval_config": { "tool": "MTEB", "model": [ { "model_name_or_path": "maidalun/bce-embedding-base_v1", "is_cross_encoder": False, "max_seq_length": 512, "prompt": "", "model_kwargs": {"torch_dtype": "auto"}, "encode_kwargs": { "batch_size": 64, }, }, { "model_name_or_path": "maidalun/bce-reranker-base_v1", "is_cross_encoder": True, "max_seq_length": 512, "prompt": "", "model_kwargs": {"torch_dtype": "auto"}, "encode_kwargs": { "batch_size": 32, }, }, ], "eval": { "tasks": ["CMedQAv1"], "verbosity": 3, "output_folder": "outputs", "overwrite_results": True, "limits": 50, "top_k": 10, }, }, }