haotian-liu / LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.
https://llava.hliu.cc
Apache License 2.0
19.54k stars 2.15k forks source link

load_dataset(liuhaotian/LLaVA-Instruct-150K) fails with error, when generating train split: 394276 examples #1535

Open kzos opened 3 months ago

kzos commented 3 months ago

from datasets import load_dataset data = load_dataset("liuhaotian/LLaVA-Instruct-150K")

Downloading readme: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.22k/1.22k [00:00<00:00, 12.3MB/s] Downloading data: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79.6M/79.6M [00:04<00:00, 18.5MB/s] Downloading data: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 126M/126M [00:06<00:00, 19.9MB/s] Downloading data: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20.5M/20.5M [00:01<00:00, 12.5MB/s] Downloading data: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 229M/229M [00:12<00:00, 19.1MB/s] Downloading data: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 131M/131M [00:05<00:00, 24.7MB/s] Downloading data: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.03G/1.03G [00:57<00:00, 17.9MB/s] Generating train split: 394276 examples [00:14, 26360.31 examples/s] Traceback (most recent call last): python3.12/site-packages/datasets/packaged_modules/json/json.py", line 122, in _generate_tables pa_table = paj.read_json( ^^^^^^^^^^^^^^ File "pyarrow/_json.pyx", line 308, in pyarrow._json.read_json File "pyarrow/error.pxi", line 154, in pyarrow.lib.pyarrow_internal_check_status File "pyarrow/error.pxi", line 91, in pyarrow.lib.check_status pyarrow.lib.ArrowInvalid: JSON parse error: Column() changed from object to string in row 0

During handling of the above exception, another exception occurred:

Traceback (most recent call last): python3.12/site-packages/datasets/packaged_modules/json/json.py", line 162, in _generate_tables pa_table = pa.Table.from_pydict(mapping) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "pyarrow/table.pxi", line 1920, in pyarrow.lib._Tabular.from_pydict File "pyarrow/table.pxi", line 5992, in pyarrow.lib._from_pydict File "pyarrow/array.pxi", line 385, in pyarrow.lib.asarray File "pyarrow/array.pxi", line 355, in pyarrow.lib.array File "pyarrow/array.pxi", line 42, in pyarrow.lib._sequence_to_array File "pyarrow/error.pxi", line 154, in pyarrow.lib.pyarrow_internal_check_status File "pyarrow/error.pxi", line 91, in pyarrow.lib.check_status pyarrow.lib.ArrowTypeError: Expected bytes, got a 'int' object

The above exception was the direct cause of the following exception:

shizhengLi commented 3 months ago

same problem. +1

icemoon-creative commented 2 months ago

same problem. +1 any idea to solve?