현재 MRC 부분에서 추론을 끝내게 되면 top-k 문서에서 question에 대응하는 정답을 추출하게 되어있다.
이에 대한 결과가 question별로 k개씩 주어진다.
{
"start_logit": -1.142974615097046,
"end_logit": -1.9612723588943481,
"text": "국사편찬위는 3월 15일 대학교수와 초중고 교사들 21명으로 역사 교육과정 개발 정책연구위원회",
"probability": 0.7073149085044861
},
이때, 모든 k개의 text를 보게되면 다음과 같다.
국사편찬위는 3월 15일 대학교수와 초중고 교사들 21명으로 역사 교육과정 개
역사 교육과정 개발 정책연구위원회
국사편찬위
인사
인사조
사직단
국사편
사직단이란 나라와 국민 생활의 편안을 빌고 풍년을 기원하며 제사 지내는 곳으로 사
국사
사
단인 사직(社稷)
국사편찬
국사편찬위는 3월 15일 대학교수와 초중고 교사들 21명으로 역사 교육과정 개발 정책연구
정책연구위원회
위원회
편찬위는 3월 15일 대학교수와 초중고 교사들 21명으로 역사 교육과정 개발 정책연구위원회
교육과정 개발 정책연구위원회
찬위는 3월 15일 대학교수와 초중고 교사들 21명으로 역사 교육과정 개발 정책연구위원회
사직(社稷)
3월 15일 대학교수와 초중고 교사들 21명으로 역사 교육과정 개발 정책연구위원회
위의 예시와 같이 정답을 문장으로 만들어냈는데, 실제 정답 데이터는 문장이 아닌 단어로 구성되어있다.
개선 제안 사항
정답으로 추측되는 text의 probability가 일정 수준보다 낮은 경우, 해당 question에 대응하는 text를 모두 모아 후처리 하는 방식을 적용해보려 한다.
후처리 방식으로 현재 최다 언급 단어 추출, 키워드 추출 혹은 다른 방식을 고려해볼수 있을것으로 보인다.
기대점
위의 예시와 같이 문장 형태로 답변이 나오게 되는 경우 EM이 될 확률이 매우 낮은데, 이번 Issue 해결로 인해 EM 결과 향상에 도움이 될것으로 기대된다.
현재 상황과 문제점
개선 제안 사항
text
의probability
가 일정 수준보다 낮은 경우, 해당question
에 대응하는text
를 모두 모아 후처리 하는 방식을 적용해보려 한다.기대점