Closed Uijeong97 closed 7 months ago
예시
분류 | metric | refs | GPT preds |
---|---|---|---|
지연 | BLEU recall | "지연정보" | "지연 블로그 글~~" |
파업 | BLEU recall | "파업소식", "파업이유" | |
파업 | rouge-2 | "파업한 내용 요약~~~" | "GPT 요약~~~" |
분류 | GPT Metric | Question | Score |
---|---|---|---|
파업 | consistency | 거짓된 내용이 있습니까? | 1-5 |
recall = refs(keywords),GPT preds(블로그생성글) 교집합 / keywords 수
분류 | metric | refs | GPT preds |
---|---|---|---|
시간표변경 | rouge-1 recall | "변경 노선", "첫차/막차 시간","변경 일시" | "블로그 생성 글" |
연착 | rouge-1 recall | "연착노선", "연착 일시" | "블로그 생성 글" |
파업 | rouge -1 recall | "파업노선", "파업 기간" | "블로그 생성 글" |
분류 | GPT Metric | Question | Score |
---|---|---|---|
모든주제 | 프롬프트 전용 기반 근거성 | 모델이 생성한 답변이 소스 데이터(사용자 정의 컨텍스트)와 얼마나 일치하나요? | 1-5 |
모든주제 | 일관성(가독성) | 일관성 측정에서는 답변이 자연스럽게 읽히고, 흐름이 유려하고, 사람의 언어와 비슷한 텍스트를 생성하나요? | 1-5 |
모든주제 | 형식및 구조화 | 글이 잘 조직되어 있고, 적절한 제목, 소제목, 불릿 포인트 등을 사용하여 정보를 명확하게 전달하나요? | 1-5 |
유형 | Aspect | Metric | Question | Answer | refs | GPT preds |
---|---|---|---|---|---|---|
시간표변경 | Similarity Metric | rouge-2 recall | - | - | "변경 노선", "변경 일시" | 실제 생성된 글 |
연착 | rouge-2 recall | - | - | "연착 노선", "연착 일시” | 실제 생성된 글 | |
파업 | rouge-2 recall | - | - | "파업 노선", "파업 기간” | 실제 생성된 글 | |
모든 주제/GPT-based, 정성 | General Writing | Coherence(문장 간의 관련성) | 1-5 | |||
Consistency(논리적인 일치) | 일관성의 정의는 처음부터 끝까지 일관된 주제에 기반하여 작성되었는지?답변이 자연스럽게 읽히고, 흐름이 유려하고, 사람의 언어와 비슷한 텍스트를 생성하나요?> 글이 읽기 쉬운지는 Fluency 측면으로 넣을까요? | 1-5 | ||||
Fluency(문법, 형식 및 구조화, 중복) | 글이 잘 조직되어 있고, 적절한 제목, 소제목, 불릿 포인트 등을 사용하여 정보를 명확하게 전달하나요? | 1-5 | ||||
Relevance | ||||||
시간표/GPT-based, 정량 | Service Specific | Factual consistency | Q. 시간표 변경 시행일이 언제입니까?A. 2023년 12월 01일Q. 시간표 변경 시행일의 요일은 언제입니까?A. 금요일Q. 시간표 변경 대상 노선은 무엇입니까?A. 4호선, 수인분당선 | Accuracy | Knowledge Generation 단계에서 가져온 공지사항(한국철도공사) | 실제 생성된 글 |
Factual consistency(QG-QA) | Generated Question. 이번 변경 시간표는 평일만 변경되었는가?QA. 같은 내용인지 판단(Yes/No) | Accuracy | Knowledge Generation 단계에서 가져온 공지사항 | 실제 생성된 글 | ||
파업/GPT-based, 정량 | Service Specific | Factual consistency | Q. 파업 시작 날짜는 언제입니까?A. 2023년 11월 09일Q. 파업 시작일의 요일은 언제입니까?A. 목요일Q. 파업 종료일 날짜는 언제입니까?A. 2023년 11월 10일Q. 파업 노선 이름이 무엇입니까?A. 4호선(진접선) | Accuracy | Knowledge Generation 단계에서 가져온 뉴스기사 | 실제 생성된 글 |
긴글-이미지 | Image Generation | Precision | 각 글감의 맥락이 이미지의 맥락과 일치하는가? | Yes/No | "파업노선" | "파업노선 이미지" |
Recall | 이미지 그룹이 전체 문맥에 어울리나요? | Yes/No | 전체 문맥 | "이미지 그룹” | ||
모든주제-제목 | Title Generation | SEO optimization | Google SEO에 최적화되도록 작성되었나요? | 1-5 | ||
Precision | 글의 키워드(타겟)가 제목(소스)에 반영되었나요? | Yes/No | GPT based, 정량벤치마크를 퓨샷으로 QA 생성 | |||
Recall | 제목(소스)이 전체 문맥(타겟)에 어울리나요? | Yes/No |
정확성 평가
일관성 평가
블로그 적합성 평가
문법 적합성 평가
GPT 유사성 평가
가독성 평가
TODO:
짧은 글 평가 요소 (GPT Based, 정량평가)