nlpai-lab / KULLM

☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM
http://nlp.korea.ac.kr/
Apache License 2.0
570 stars 71 forks source link

구름 데이터셋 v2 질문 #6

Closed HanNayeoniee closed 1 year ago

HanNayeoniee commented 1 year ago

안녕하세요. 멋진 한국어 LLM과 데이터셋을 공개해주셔서 감사합니다!

리드미에 구름 데이터셋 v2 설명이 아래와 같이 나와있는데, 관련 질문드립니다.

구름 데이터셋 v2는 GPT4ALL, Vicuna, 그리고 Databricks의 Dolly 데이터셋을 병합한 것입니다.

  1. 구름 데이터셋 v2에 GPT4ALL 한국어 번역 데이터가 없던데, 이 부분은 아직 공개 전 인가요? 혹은 GPT4ALL 대신 alpaca 데이터가 포함된 건가요?
  2. Dolly 원본 데이터에는 category 정보가 함께 들어있는걸로 아는데요, 이 정보가 포함된 한국어 번역 데이터도 공유해주실 수 있을까요? 혹은 공유해주신 데이터가 원본 데이터와 순서가 다르던데 동일한 순서로 정렬된 파일이 있을까요?

감사합니다 🙂

HanNayeoniee commented 1 year ago

깃허브를 둘러보다가 첫 번째 질문은 해결했습니다! GPT4ALL 한국어 번역 데이터는 user_oriented_instructions_eval.jsonl 에 있군요 ㅎㅎ

taeminlee commented 1 year ago

안녕하세요,

dolly 번역본은 https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko 페이지에서 다운로드 받으실 수 있습니다. 말씀해주신 것처럼 정렬은 되어 있지 않습니다. 차선책으로 원래 순서 번호가 id에 들어 있으니, 필요 시 id 순으로 정렬하셔서 사용하시면 됩니다.

taeminlee commented 1 year ago

gpt4all 번역본은 https://github.com/nlpai-lab/KULLM/blob/master/data/kullm-v1.jsonl 여기에서 다운로드 받으실 수 있습니다!

HanNayeoniee commented 1 year ago

안녕하세요,

dolly 번역본은 https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko 페이지에서 다운로드 받으실 수 있습니다. 말씀해주신 것처럼 정렬은 되어 있지 않습니다. 차선책으로 원래 순서 번호가 id에 들어 있으니, 필요 시 id 순으로 정렬하셔서 사용하시면 됩니다.

답변 감사합니다! nlpai-lab/databricks-dolly-15k-ko 데이터셋을 허깅페이스 Dataset Viewer로 확인했을 때 뒷부분 데이터 일부 response가 instruction과 대응되지 않는 것 같습니다. instruction-context는 짝이 맞는 것 같은데, 번역 과정에서 response 매핑이 잘못 되었을 수 있는지 질문드립니다.

아래는 제가 매핑이 잘못 되었다고 생각한 부분을 캡쳐해 첨부했습니다.

image

taeminlee commented 1 year ago

안녕하세요, 데이터 셋 fix 하였습니다.

번역 과정에서 예산 문제로 resume을 몇번 했었는데, 해당 과정에서 index가 조금 꼬였었네요. ㅠㅠ)

수정본 다시 업로드 하였으니 확인 바랍니다. 감사합니다.

image

HanNayeoniee commented 1 year ago

데이터 바로 수정하신거 확인했습니다! 감사합니다 👍

fgenie commented 1 year ago

아 이 정보가 여기 있었군요. 너무 도움되는 쓰레드였습니다.