Please provide the dataset file or download script

open-compass / VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support ~100 VLMs, 40+ benchmarks

https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

Apache License 2.0

1.08k stars 154 forks source link

Please provide the dataset file or download script #412

Closed lerogo closed 4 weeks ago

lerogo commented 1 month ago

In many cases (such as MMBench_CN), the links in the code will return 404 errors, and the network is sometimes unstable. Please provide the dataset file or a separate download script.

Thanks!

BrenchCC commented 1 month ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

BrenchCC commented 1 month ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

vlmeval/dataset目录下的脚本文件都记录着不同数据的下载链接

lerogo commented 1 month ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

你好，我知道有这个链接，但是有时候下载就是404😭（比如MMBench_CN）；能不能提供一个专门下载数据集的脚本，如果这样一个一个文件去找，去单独处理，真的很麻烦的😭

lerogo commented 1 month ago

你们应该很熟悉这个脚本，应该用不了多久就能写出批量下载的脚本

kennymckormick commented 1 month ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

你好，我知道有这个链接，但是有时候下载就是404😭（比如MMBench_CN）；能不能提供一个专门下载数据集的脚本，如果这样一个一个文件去找，去单独处理，真的很麻烦的😭

你好，404 应该是你的网络问题 (例如，应当关闭代理)。另外需要声明，MMBench_CN 并非我们向社区支持的数据集名称，请参照 README 当网络无问题时，你可以采用以下脚本下载全部数据集 (仍是采用 dataset building 过程中自动下载的方式)：

from vlmeval.dataset import SUPPORTED_DATASETS, build_dataset
for d in SUPPORTED_DATASETS:
    build_dataset(d)

BrenchCC commented 1 month ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

你好，我知道有这个链接，但是有时候下载就是404😭（比如MMBench_CN）；能不能提供一个专门下载数据集的脚本，如果这样一个一个文件去找，去单独处理，真的很麻烦的😭

可以添加一下镜像网站帮助下载，虽然我感觉也不是很快国内网络访问的话，https://hf-mirror.com/

lerogo commented 1 month ago

非常感谢，不是代理问题，代理没有问题，就是404

kennymckormick commented 1 month ago

非常感谢，不是代理问题，代理没有问题，就是404

请提供一个你的大致地理位置，及一个 404 的链接，我们可以进行辅助验证

lerogo commented 1 month ago

非常感谢，不是代理问题，代理没有问题，就是404

请提供一个你的大致地理位置，及一个 404 的链接，我们可以进行辅助验证

ip地址：北京和香港的都不行链接：

kennymckormick commented 1 month ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

你好，我知道有这个链接，但是有时候下载就是404😭（比如MMBench_CN）；能不能提供一个专门下载数据集的脚本，如果这样一个一个文件去找，去单独处理，真的很麻烦的😭

你好，404 应该是你的网络问题 (例如，应当关闭代理)。另外需要声明，MMBench_CN 并非我们向社区支持的数据集名称，请参照 README 当网络无问题时，你可以采用以下脚本下载全部数据集 (仍是采用 dataset building 过程中自动下载的方式)：
from vlmeval.dataset import SUPPORTED_DATASETS, build_dataset
for d in SUPPORTED_DATASETS:
    build_dataset(d)

@lerogo 你好，我在上文和注释中都有提到，MMBench 与 MMBench_CN 是内部使用的文件，外部不可访问。关于我们对外提供支持的 dataset name，请参照 README 中表格：https://github.com/open-compass/VLMEvalKit

lerogo commented 4 weeks ago

莫有问题了，非常感谢！

jiwei08 commented 2 weeks ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

请问下在哪里声明本地数据集位置，我下载好了一直找不到在哪里填写数据集地址，总是会自动下载

BrenchCC commented 2 weeks ago

也许可以根据vlmeval/dataset/image_mcq.py中的数据链接，选择你需要的数据，提前下载好tsv文件数据，但要记得声明数据集位置

请问下在哪里声明本地数据集位置，我下载好了一直找不到在哪里填写数据集地址，总是会自动下载

在 .env设置LMUData=文件夹路径

jiwei08 commented 2 weeks ago

在具体问下，比如MMBench_DEV_EN数据在本地的位置是~/dateset/mmbench/MMBench_DEV_EN.tsv，LMUData变量该怎么设置呢，是dict格式的吗

BrenchCC commented 2 weeks ago

在具体问下，比如MMBench_DEV_EN数据在本地的位置是~/dateset/mmbench/MMBench_DEV_EN.tsv，LMUData变量该怎么设置呢，是dict格式的吗

直接设置为所有数据存储的路径即可，我的设置是LMUData=./data，在data/目录下直接存放MMBench_DEV_EN.tsv文件即可