nlpai-lab / KULLM

☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM
http://nlp.korea.ac.kr/
Apache License 2.0
571 stars 71 forks source link

데이터셋의 상업적이용가능성 #13

Closed changdaeoh closed 1 year ago

changdaeoh commented 1 year ago

안녕하세요, 과제 수행을 위해 오픈소스 instruction dataset을 수집중인 대학원생입니다. 우선 너무 좋은 프로젝트 결과물 공개해주셔서 감사드립니다.

KULLM-v2 데이터셋을 부분적으로, 상업적으로 이용하여도 괜찮은지 여쭤보고 싶습니다.

3가지 데이터소스 (gpt4all, vicuna, dolly) 중

KULLM-v2 중 dolly소스 데이터만 추출하여, 이를 저희팀이 상업적으로 이용할 새로운 LLM학습 데이터의 일부로써 사용하여도 괜찮을지 여쭤보고싶습니다.

taeminlee commented 1 year ago

안녕하세요, 저희가 번역한 데이터 셋은 원 데이터 셋의 라이센스를 따르고 있습니다. 말씀해주신 것과 같이 gpt4all, vicuna의 경우 사용이 어려울 것 이며, dolly는 사용이 가능할 것 입니다. dolly의 경우 https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko 에서 다운로드 가능합니다. 감사합니다.