Open ChoiHwimin opened 1 year ago
본 Task에서 데이터 증강은 Question과 Answer에 대한 증강이 필요하다. Context와 Answer를 고정시키고 Question을 생성하는 Question Generation 방법으로 Question과 Answer Pair를 생성할 수 있다.
예시 데이터 KorQuAD 1.0
기존의 QA Dataset 에서 context와 answer를 묶어 input으로 사용하고 question을 target 으로 지정해 학습하면 Question Generation 모델을 학습할 수 있을 것이다.
예시 ChatGPT
LLM을 통한 적절한 프롬프트를 사용하여 question을 생성할 수 있을 것이다.
Question과 Answer Pair의 증가로 인한 Reader 모델의 성능 증가를 기대할 수 있다.
모델 학습을 통한 Question 생성 결과 학습데이터 : KorQuAD 1.0 모델 : KoGPT2
KorQuAD 데이터로 학습한 모델로 우리의 Train 데이터에 적용한 일부분이다. 아직은 적절한 Question과 부적절한 Question 둘 다 생성하는 모습이다.
학습 데이터 추가와 모델 개선으로 정확도를 높일 수 있을 것이다
현재 상황과 문제점
본 Task에서 데이터 증강은 Question과 Answer에 대한 증강이 필요하다. Context와 Answer를 고정시키고 Question을 생성하는 Question Generation 방법으로 Question과 Answer Pair를 생성할 수 있다.
개선 제안 사항
예시 데이터 KorQuAD 1.0
기존의 QA Dataset 에서 context와 answer를 묶어 input으로 사용하고 question을 target 으로 지정해 학습하면 Question Generation 모델을 학습할 수 있을 것이다.
예시 ChatGPT
LLM을 통한 적절한 프롬프트를 사용하여 question을 생성할 수 있을 것이다.
성능 개선 기대점
Question과 Answer Pair의 증가로 인한 Reader 모델의 성능 증가를 기대할 수 있다.