boostcampaitech4lv23nlp1 / final-project-level3-nlp-03

Multi-Modal Model for DocVQA(Document Visual Question Answering)
3 stars 0 forks source link

write huggingface dataset script #2

Closed Ssunbell closed 1 year ago

Ssunbell commented 1 year ago

목표

klue dataset처럼 script 방식으로 데이터셋 만들기

파일을 직접 올리려 하였으나, Parquet이라는 spark의 데이터 형식을 만들어야 하므로 오히려 배보다 배꼽이 큰 상황

dataset에 올릴 파일은 다음과 같음

''' {'questionId': 49153, 'question': 'What is the ‘actual’ value per 1000, during the year 1975?', 'image': 'documents/pybv0228_81.png', 'docId': 14465, 'answers': ['0.28'], 'box': [36,32,10,2], 'input_words' : [hello] } '''

hundredeuk2 commented 1 year ago

from datasets import load_dataset dataset = load_dataset("json", data_files="../train/train_v1.0.json", field="data") 이거 하면 동일하게 되는듯?

Ssunbell commented 1 year ago

ㅇㅇ 그거랑 동일한 형식인데 bounding box랑 image pixel값만 추가해서 넣어둠

부르는 방법

from datasets import load_dataset
datasets = load_dataset("Trailblazer-Yoo/boostcamp-docvqa")
>>> DatasetDict({
    val: Dataset({
        features: ['questionId', 'question', 'image', 'docId', 'ucsf_document_id', 'ucsf_document_page_no', 'answers', 'data_split', 'words', 'boxes'],
        num_rows: 5349
    })
    train: Dataset({
        features: ['questionId', 'question', 'image', 'docId', 'ucsf_document_id', 'ucsf_document_page_no', 'answers', 'data_split', 'words', 'boxes'],
        num_rows: 39463
    })
})
from datasets import load_dataset
test_dataset = load_dataset("Trailblazer-Yoo/boostcamp-docvqa-test")
>>> DatasetDict({
    test: Dataset({
        features: ['questionId', 'question', 'image', 'docId', 'ucsf_document_id', 'ucsf_document_page_no', 'data_split', 'words', 'boxes'],
        num_rows: 5188
    })
})