issues
search
lingo-chat
/
prompt
lingo-chat AI server (w/ 프롬프트엔지니어링, RAG, Agenting, Dataset generation)
0
stars
3
forks
source link
[Feature]: 멀티턴 데이터세트 생성 & 필터링 파이프라인 구축
#4
Closed
LewisVille-flow
closed
3 months ago
LewisVille-flow
commented
3 months ago
Background
멀티턴 데이터 생성을 위한 프롬프트 정리
고품질의 모델 학습을 위한 데이터 필터링 함수 및 파이프라인 구축
Details(Todo List)
[x] 멀티턴 데이터 생성 함수 정리
config file을 조절하여 다음 항목들을 순차적으로 조정할 수 있도록 구성
생성용 프롬프트(컨셉, 말투, 대화 횟수 등)
생성에 사용할 모델
각종 hyper-parameters(temperature, top_p 등)
대화 생성에 영감을 주는 input jsonl 파일 경로
생성된 대화 저장 경로
생성된 대화의 퀄리티 평가를 위한 프롬프트(평가 기준 등)
필터링 기준 점수
etc.
[x] 멀티턴 데이터 생성 - 필터링 전체 파이프라인 구축
[x] 전체 사용법 README 정리(프롬프트 작성법 포함)
etc(optional)
참고할 만한 링크
Upstage Dataverse
Background
Details(Todo List)
etc(optional)