Closed HanNayeoniee closed 1 year ago
깃허브를 둘러보다가 첫 번째 질문은 해결했습니다! GPT4ALL 한국어 번역 데이터는 user_oriented_instructions_eval.jsonl 에 있군요 ㅎㅎ
안녕하세요,
dolly 번역본은 https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko 페이지에서 다운로드 받으실 수 있습니다. 말씀해주신 것처럼 정렬은 되어 있지 않습니다. 차선책으로 원래 순서 번호가 id에 들어 있으니, 필요 시 id 순으로 정렬하셔서 사용하시면 됩니다.
gpt4all 번역본은 https://github.com/nlpai-lab/KULLM/blob/master/data/kullm-v1.jsonl 여기에서 다운로드 받으실 수 있습니다!
안녕하세요,
dolly 번역본은 https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko 페이지에서 다운로드 받으실 수 있습니다. 말씀해주신 것처럼 정렬은 되어 있지 않습니다. 차선책으로 원래 순서 번호가 id에 들어 있으니, 필요 시 id 순으로 정렬하셔서 사용하시면 됩니다.
답변 감사합니다!
nlpai-lab/databricks-dolly-15k-ko
데이터셋을 허깅페이스 Dataset Viewer로 확인했을 때 뒷부분 데이터 일부 response가 instruction과 대응되지 않는 것 같습니다.
instruction-context는 짝이 맞는 것 같은데, 번역 과정에서 response 매핑이 잘못 되었을 수 있는지 질문드립니다.
아래는 제가 매핑이 잘못 되었다고 생각한 부분을 캡쳐해 첨부했습니다.
안녕하세요, 데이터 셋 fix 하였습니다.
번역 과정에서 예산 문제로 resume을 몇번 했었는데, 해당 과정에서 index가 조금 꼬였었네요. ㅠㅠ)
수정본 다시 업로드 하였으니 확인 바랍니다. 감사합니다.
데이터 바로 수정하신거 확인했습니다! 감사합니다 👍
아 이 정보가 여기 있었군요. 너무 도움되는 쓰레드였습니다.
안녕하세요. 멋진 한국어 LLM과 데이터셋을 공개해주셔서 감사합니다!
리드미에 구름 데이터셋 v2 설명이 아래와 같이 나와있는데, 관련 질문드립니다.
감사합니다 🙂