tabtoyou / KoLLaVA

KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)
Apache License 2.0
273 stars 30 forks source link

7B pretrained 모델 공유 요청드립니다. #11

Closed Kyushik closed 1 year ago

Kyushik commented 1 year ago

안녕하세요. 일전에 안내 주신 이후에 다양하게 실험들을 진행해보고 있습니다.

우선 일전에 qlora 모델 저장 관련해서는 애초에 base 모델의 config 상에서 architecture가 LlavaLlamaForCausalLM으로 설정되어야하는데 저는 LlamaForCausalLM을 베이스 모델로 사용해서 애초에 학습 및 추론이 진행되기 어려운 상황이라고 생각했습니다.

그래서 생각한건 제공해주신 pretrain 방법을 수행해서 LlavaLlamaForCausalLM의 architecture를 가지는 모델을 먼저 만들고 이걸로 finetuning을 수행해야겠다.. 였습니다.

그런데 Huggingface에 올려주신 모델이 있어서 이걸 사용하려고 보니 7B-qlora 모델이더라구요! 해당 모델의 경우 pretrained 모델을 instruction 데이터로 qlora를 사용해서 한번 파인튜닝을 수행한 모델일까요? 혹시 그렇다면 pretrain까지만 수행된 모델도 huggingface에 공유해주실 수는 없으신지 문의드리고 싶습니다.

덕분에 재미있게 공부 진행하고 있습니다! 정말 감사드립니다! :)

tabtoyou commented 1 year ago

안녕하세요, 개인 일정으로 인해 답변이 늦어진 점 양해 부탁드립니다..!

1) pretrained 모델을 instruction 데이터로 qlora를 사용해서 한번 파인튜닝을 수행한 모델일까요?

2) pretrain까지만 수행된 모델 공유

현재 KoLLaVA-1.5v 작업을 위해 데이터셋 구성중에 있는데요. 이후에 학습을 하며 말씀하신 문제의 해결방법이 있을지 확인해보겠습니다.

감사합니다.

tabtoyou commented 1 year ago

안녕하세요, 문의와 관련된 부분이 업데이트 된 KoLLaVA-1.5v 버전을 공개했습니다.

Pretrain을 통해 얻은 projection layer를 다운받으신 뒤 readme에 있는 방법을 참고해 qlora 학습이 가능합니다. 데이터셋의 경우 이전에 공개한 150K 데이터셋으로 학습 가능하며, 612K 데이터셋의 경우 곧 공개할 예정입니다.

업데이트한 코드로 말씀하신 부분에 대한 에러가 잘 해결되었으면 좋겠습니다. 감사합니다.