boostcampaitech5 / level2_nlp_mrc-nlp-04

level2_nlp_mrc-nlp-04 created by GitHub Classroom
0 stars 0 forks source link

[Data][Augmentation] Question Generation #45

Open ChoiHwimin opened 1 year ago

ChoiHwimin commented 1 year ago

현재 상황과 문제점

본 Task에서 데이터 증강은 Question과 Answer에 대한 증강이 필요하다. Context와 Answer를 고정시키고 Question을 생성하는 Question Generation 방법으로 Question과 Answer Pair를 생성할 수 있다.

개선 제안 사항

  1. 모델 학습을 통한 Question 생성

image 예시 데이터 KorQuAD 1.0

기존의 QA Dataset 에서 context와 answer를 묶어 input으로 사용하고 question을 target 으로 지정해 학습하면 Question Generation 모델을 학습할 수 있을 것이다.

  1. LLM을 통한 Question 생성

image 예시 ChatGPT

LLM을 통한 적절한 프롬프트를 사용하여 question을 생성할 수 있을 것이다.

성능 개선 기대점

Question과 Answer Pair의 증가로 인한 Reader 모델의 성능 증가를 기대할 수 있다.

ChoiHwimin commented 1 year ago

image 모델 학습을 통한 Question 생성 결과 학습데이터 : KorQuAD 1.0 모델 : KoGPT2

KorQuAD 데이터로 학습한 모델로 우리의 Train 데이터에 적용한 일부분이다. 아직은 적절한 Question과 부적절한 Question 둘 다 생성하는 모습이다.

학습 데이터 추가와 모델 개선으로 정확도를 높일 수 있을 것이다