Subworkers / ojitong

오늘의 지하철 소식통
2 stars 1 forks source link

evaluation 지표 정리 #14

Closed Uijeong97 closed 7 months ago

Uijeong97 commented 7 months ago

짧은 글 평가 요소 (GPT Based, 정량평가)

Uijeong97 commented 7 months ago

예시

분류 metric refs GPT preds
지연 BLEU recall "지연정보" "지연 블로그 글~~"
파업 BLEU recall "파업소식", "파업이유"
파업 rouge-2 "파업한 내용 요약~~~" "GPT 요약~~~"
분류 GPT Metric Question Score
파업 consistency 거짓된 내용이 있습니까? 1-5
kkkaa1 commented 7 months ago

recall = refs(keywords),GPT preds(블로그생성글) 교집합 / keywords 수

분류 metric refs GPT preds
시간표변경 rouge-1 recall "변경 노선", "첫차/막차 시간","변경 일시" "블로그 생성 글"
연착 rouge-1 recall "연착노선", "연착 일시" "블로그 생성 글"
파업 rouge -1 recall "파업노선", "파업 기간" "블로그 생성 글"
분류 GPT Metric Question Score
모든주제 프롬프트 전용 기반 근거성 모델이 생성한 답변이 소스 데이터(사용자 정의 컨텍스트)와 얼마나 일치하나요? 1-5
모든주제 일관성(가독성) 일관성 측정에서는 답변이 자연스럽게 읽히고, 흐름이 유려하고, 사람의 언어와 비슷한 텍스트를 생성하나요? 1-5
모든주제 형식및 구조화 글이 잘 조직되어 있고, 적절한 제목, 소제목, 불릿 포인트 등을 사용하여 정보를 명확하게 전달하나요? 1-5
Uijeong97 commented 7 months ago

Aspect-Metric

유형 Aspect Metric Question Answer refs GPT preds
시간표변경 Similarity Metric rouge-2 recall - - "변경 노선", "변경 일시" 실제 생성된 글
연착   rouge-2 recall - - "연착 노선", "연착 일시” 실제 생성된 글
파업   rouge-2 recall - - "파업 노선", "파업 기간” 실제 생성된 글
모든 주제/GPT-based, 정성 General Writing Coherence(문장 간의 관련성)   1-5    
    Consistency(논리적인 일치) 일관성의 정의는 처음부터 끝까지 일관된 주제에 기반하여 작성되었는지?답변이 자연스럽게 읽히고, 흐름이 유려하고, 사람의 언어와 비슷한 텍스트를 생성하나요?> 글이 읽기 쉬운지는 Fluency 측면으로 넣을까요? 1-5    
    Fluency(문법, 형식 및 구조화, 중복) 글이 잘 조직되어 있고, 적절한 제목, 소제목, 불릿 포인트 등을 사용하여 정보를 명확하게 전달하나요? 1-5    
    Relevance        
시간표/GPT-based, 정량 Service Specific Factual consistency Q. 시간표 변경 시행일이 언제입니까?A. 2023년 12월 01일Q. 시간표 변경 시행일의 요일은 언제입니까?A. 금요일Q. 시간표 변경 대상 노선은 무엇입니까?A. 4호선, 수인분당선 Accuracy Knowledge Generation 단계에서 가져온 공지사항(한국철도공사) 실제 생성된 글
    Factual consistency(QG-QA) Generated Question. 이번 변경 시간표는 평일만 변경되었는가?QA. 같은 내용인지 판단(Yes/No) Accuracy Knowledge Generation 단계에서 가져온 공지사항 실제 생성된 글
파업/GPT-based, 정량 Service Specific Factual consistency Q. 파업 시작 날짜는 언제입니까?A. 2023년 11월 09일Q. 파업 시작일의 요일은 언제입니까?A. 목요일Q. 파업 종료일 날짜는 언제입니까?A. 2023년 11월 10일Q. 파업 노선 이름이 무엇입니까?A. 4호선(진접선) Accuracy Knowledge Generation 단계에서 가져온 뉴스기사 실제 생성된 글
긴글-이미지 Image Generation Precision 각 글감의 맥락이 이미지의 맥락과 일치하는가? Yes/No "파업노선" "파업노선 이미지"
    Recall 이미지 그룹이 전체 문맥에 어울리나요? Yes/No 전체 문맥 "이미지 그룹”
모든주제-제목 Title Generation SEO optimization Google SEO에 최적화되도록 작성되었나요? 1-5    
    Precision 글의 키워드(타겟)가 제목(소스)에 반영되었나요? Yes/No GPT based, 정량벤치마크를 퓨샷으로 QA 생성  
    Recall 제목(소스)이 전체 문맥(타겟)에 어울리나요? Yes/No    
khwee2000 commented 7 months ago

블로그 컨텐츠 정성 평가 지표

평가 기준 총정리 (점수 기준)

1. 정확성

2. 블로그 적합성

3. GPT 유사성 (인간적 표현도)

4. 일관성

5. 문법 적합성

6. 가독성

평가 절차

  1. 정확성 평가

    • 기사의 핵심 정보와 블로그 컨텐츠를 비교하여 점수를 매깁니다.
  2. 일관성 평가

    • 블로그 컨텐츠가 주제와 관련되어 일관되게 정보를 제공하는지 확인합니다.
  3. 블로그 적합성 평가

    • 텍스트의 친근한 톤과 스타일을 평가하여 독자의 참여도를 측정합니다.
  4. 문법 적합성 평가

    • 문법적 정확성과 표현의 유창성을 점검합니다.
  5. GPT 유사성 평가

    • 텍스트가 인간의 글쓰기와 얼마나 유사한지 평가합니다.
  6. 가독성 평가

    • 텍스트의 명료함과 구조의 명확성을 평가합니다.

셀프 피드백

Uijeong97 commented 7 months ago

TODO: