boostcampaitech7 / level2-mrc-nlp-06

level2-mrc-nlp-06 created by GitHub Classroom
3 stars 1 forks source link

[BUG] 전처리된 데이터셋에서 수정 필요 #14

Closed minjijeong98 closed 2 weeks ago

minjijeong98 commented 2 weeks ago

Describe the bug

Error 1. answer start type error

Current data

# preprocessed['validation']['answers']
[{'answer_start': ['281'], 'text': ['한보철강']},
 {'answer_start': ['146'], 'text': ['1871년']},
 {'answer_start': ['509'], 'text': ['나뭇잎']},

Expected behavior

# original['validation']['answers']
[{'answer_start': [284], 'text': ['한보철강']},
 {'answer_start': [146], 'text': ['1871년']},
 {'answer_start': [517], 'text': ['나뭇잎']},
...

Possible Solution

'train'과 'validation' 데이터셋에 변환 적용

preprocessed['train'] = preprocessed['train'].map(convert_answer_start) preprocessed['validation'] = preprocessed['validation'].map(convert_answer_start)

결과 확인

print(preprocessed['train']['answers'][0]) print(preprocessed['validation']['answers'][0])

{'answer_start': [229], 'text': ['하원']}

{'answer_start': [281], 'text': ['한보철강']}


## Error 2. `id` error
#### Current data
```python
# 현재 전처리된 데이터의 데이터 구조
DatasetDict({
    train: Dataset({
        features: ['title', 'context', 'question', 'document_id', 'answers'],
        num_rows: 3952
    })
    validation: Dataset({
        features: ['title', 'context', 'question', 'document_id', 'answers'],
        num_rows: 240
    })
})

Expected behavior

# 원본 데이터의 데이터 구조
DatasetDict({
    train: Dataset({
        features: ['title', 'context', 'question', 'id', 'answers', 'document_id', '__index_level_0__'],
        num_rows: 3952
    })
    validation: Dataset({
        features: ['title', 'context', 'question', 'id', 'answers', 'document_id', '__index_level_0__'],
        num_rows: 240
    })
})
sty0507 commented 2 weeks ago

전처리 코드에서 발생한 이슈로 수정했습니다.