Uijeong97 commented 7 months ago

짧은 글 평가 요소 (GPT Based, 정량평가)

변경 노선이 들어가있는가?
변경 일시가 들어가 있는가?
공지사항 홈페이지 링크가 들어가 있는가?
첫차, 막차 시간이 들어가 있는가?
(선택) 배차 간격, 횟수 들어가 있는가?

Uijeong97 commented 7 months ago

예시

분류	metric	refs	GPT preds
지연	BLEU recall	"지연정보"	"지연 블로그 글~~"
파업	BLEU recall	"파업소식", "파업이유"
파업	rouge-2	"파업한 내용 요약~~~"	"GPT 요약~~~"

분류	GPT Metric	Question	Score
파업	consistency	거짓된 내용이 있습니까?	1-5

kkkaa1 commented 7 months ago

recall = refs(keywords),GPT preds(블로그생성글) 교집합 / keywords 수

분류	metric	refs	GPT preds
시간표변경	rouge-1 recall	"변경 노선", "첫차/막차 시간","변경 일시"	"블로그 생성 글"
연착	rouge-1 recall	"연착노선", "연착 일시"	"블로그 생성 글"
파업	rouge -1 recall	"파업노선", "파업 기간"	"블로그 생성 글"

분류	GPT Metric	Question	Score
모든주제	프롬프트 전용 기반 근거성	모델이 생성한 답변이 소스 데이터(사용자 정의 컨텍스트)와 얼마나 일치하나요?	1-5
모든주제	일관성(가독성)	일관성 측정에서는 답변이 자연스럽게 읽히고, 흐름이 유려하고, 사람의 언어와 비슷한 텍스트를 생성하나요?	1-5
모든주제	형식및 구조화	글이 잘 조직되어 있고, 적절한 제목, 소제목, 불릿 포인트 등을 사용하여 정보를 명확하게 전달하나요?	1-5

Uijeong97 commented 7 months ago

Aspect-Metric

Aspect에 대한 평가 점수가 높을 수록 글의 quality가 높아지게끔 질문을 설계해야 함
Aspect 끼리 겹치는 부분이 없도록 설계해야, Avg 점수로 Quality 평가가 가능할 것

유형	Aspect	Metric	Question	Answer	refs	GPT preds
시간표변경	Similarity Metric	rouge-2 recall	-	-	"변경 노선", "변경 일시"	실제 생성된 글
연착		rouge-2 recall	-	-	"연착 노선", "연착 일시”	실제 생성된 글
파업		rouge-2 recall	-	-	"파업 노선", "파업 기간”	실제 생성된 글
모든 주제/GPT-based, 정성	General Writing	Coherence(문장 간의 관련성)		1-5
		Consistency(논리적인 일치)	일관성의 정의는 처음부터 끝까지 일관된 주제에 기반하여 작성되었는지?답변이 자연스럽게 읽히고, 흐름이 유려하고, 사람의 언어와 비슷한 텍스트를 생성하나요?> 글이 읽기 쉬운지는 Fluency 측면으로 넣을까요?	1-5
		Fluency(문법, 형식 및 구조화, 중복)	글이 잘 조직되어 있고, 적절한 제목, 소제목, 불릿 포인트 등을 사용하여 정보를 명확하게 전달하나요?	1-5
		Relevance
시간표/GPT-based, 정량	Service Specific	Factual consistency	Q. 시간표 변경 시행일이 언제입니까?A. 2023년 12월 01일Q. 시간표 변경 시행일의 요일은 언제입니까?A. 금요일Q. 시간표 변경 대상 노선은 무엇입니까?A. 4호선, 수인분당선	Accuracy	Knowledge Generation 단계에서 가져온 공지사항(한국철도공사)	실제 생성된 글
		Factual consistency(QG-QA)	Generated Question. 이번 변경 시간표는 평일만 변경되었는가?QA. 같은 내용인지 판단(Yes/No)	Accuracy	Knowledge Generation 단계에서 가져온 공지사항	실제 생성된 글
파업/GPT-based, 정량	Service Specific	Factual consistency	Q. 파업 시작 날짜는 언제입니까?A. 2023년 11월 09일Q. 파업 시작일의 요일은 언제입니까?A. 목요일Q. 파업 종료일 날짜는 언제입니까?A. 2023년 11월 10일Q. 파업 노선 이름이 무엇입니까?A. 4호선(진접선)	Accuracy	Knowledge Generation 단계에서 가져온 뉴스기사	실제 생성된 글
긴글-이미지	Image Generation	Precision	각 글감의 맥락이 이미지의 맥락과 일치하는가?	Yes/No	"파업노선"	"파업노선 이미지"
		Recall	이미지 그룹이 전체 문맥에 어울리나요?	Yes/No	전체 문맥	"이미지 그룹”
모든주제-제목	Title Generation	SEO optimization	Google SEO에 최적화되도록 작성되었나요?	1-5
		Precision	글의 키워드(타겟)가 제목(소스)에 반영되었나요?	Yes/No	GPT based, 정량벤치마크를 퓨샷으로 QA 생성
		Recall	제목(소스)이 전체 문맥(타겟)에 어울리나요?	Yes/No

khwee2000 commented 7 months ago

블로그 컨텐츠 정성 평가 지표

평가 기준 총정리 (점수 기준)

1. 정확성

점수 범위: 0-45
설명: 뉴스 기사와의 정보 일치도를 평가합니다. 주요 정보에는 시간, 날짜, 지하철 노선 등이 포함됩니다.

2. 블로그 적합성

점수 범위: 0-30
설명: 텍스트가 일반적인 블로그 말투로 친절하고 독자를 끌어당기는지 평가합니다.

3. GPT 유사성 (인간적 표현도)

점수 범위: 0-10
설명: 텍스트가 자연스러운 인간의 글쓰기 스타일을 얼마나 잘 모방하는지 평가합니다.

4. 일관성

점수 범위: 0-5
설명: 글 전체가 주제와 관련 있고, 각 문장이 논리적으로 일관되게 연결되었는지를 평가합니다.

5. 문법 적합성

점수 범위: 0-5
설명: 문법, 문장 구조, 단어 선택, 맞춤법 등을 평가합니다.

6. 가독성

점수 범위: 0-5
설명: 텍스트가 명료하고 읽기 쉬운지, 전체적인 레이아웃과 서식이 독자의 이해를 돕는지 평가합니다.

평가 절차

정확성 평가
- 기사의 핵심 정보와 블로그 컨텐츠를 비교하여 점수를 매깁니다.
일관성 평가
- 블로그 컨텐츠가 주제와 관련되어 일관되게 정보를 제공하는지 확인합니다.
블로그 적합성 평가
- 텍스트의 친근한 톤과 스타일을 평가하여 독자의 참여도를 측정합니다.
문법 적합성 평가
- 문법적 정확성과 표현의 유창성을 점검합니다.
GPT 유사성 평가
- 텍스트가 인간의 글쓰기와 얼마나 유사한지 평가합니다.
가독성 평가
- 텍스트의 명료함과 구조의 명확성을 평가합니다.

셀프 피드백

각 평가 후 자가 평가를 진행하며, 90점 이상일 경우 블로그 포스트로 게시합니다.

Uijeong97 commented 7 months ago

TODO:

이미지, 제목, Factual consistency(QG-QA)

Subworkers / ojitong

evaluation 지표 정리 #14

Aspect-Metric

블로그 컨텐츠 정성 평가 지표

평가 기준 총정리 (점수 기준)

1. 정확성

2. 블로그 적합성

3. GPT 유사성 (인간적 표현도)

4. 일관성

5. 문법 적합성

6. 가독성

평가 절차

셀프 피드백