7B pretrained 모델 공유 요청드립니다.

Kyushik commented 1 year ago

안녕하세요. 일전에 안내 주신 이후에 다양하게 실험들을 진행해보고 있습니다.

우선 일전에 qlora 모델 저장 관련해서는 애초에 base 모델의 config 상에서 architecture가 LlavaLlamaForCausalLM으로 설정되어야하는데 저는 LlamaForCausalLM을 베이스 모델로 사용해서 애초에 학습 및 추론이 진행되기 어려운 상황이라고 생각했습니다.

그래서 생각한건 제공해주신 pretrain 방법을 수행해서 LlavaLlamaForCausalLM의 architecture를 가지는 모델을 먼저 만들고 이걸로 finetuning을 수행해야겠다.. 였습니다.

그런데 Huggingface에 올려주신 모델이 있어서 이걸 사용하려고 보니 7B-qlora 모델이더라구요! 해당 모델의 경우 pretrained 모델을 instruction 데이터로 qlora를 사용해서 한번 파인튜닝을 수행한 모델일까요? 혹시 그렇다면 pretrain까지만 수행된 모델도 huggingface에 공유해주실 수는 없으신지 문의드리고 싶습니다.

덕분에 재미있게 공부 진행하고 있습니다! 정말 감사드립니다! :)

tabtoyou commented 1 year ago

안녕하세요, 개인 일정으로 인해 답변이 늦어진 점 양해 부탁드립니다..!

1) pretrained 모델을 instruction 데이터로 qlora를 사용해서 한번 파인튜닝을 수행한 모델일까요?

네 맞습니다.
더 정확한 이해를 위해 설명을 드리면, (Ko)LLaVA의 pretrain 과정에서 LLM과 Vision Encoder는 모두 freeze 합니다.(파라미터 변하지 않음) 대신, 그 사이를 연결해주는 projection layer 만 학습을 합니다.
finetuning 시에도 LLM과 Vision Encoder는 pretrain 때와 동일한 모델의 파라미터를 불러오며, 이전과 달라진건 projection layer가 학습된 파라미터라는 점입니다.

2) pretrain까지만 수행된 모델 공유

위에서 설명드린 과정을 보면 알 수 있듯이, pretrain 후에는 projection layer만 따로 저장합니다. (LLM, Vision Encoder는 기존 파라미터를 불러오면 되기 때문에)
그래서 제가 이해한 게 맞다면, projection layer를 공유드려도 말씀하신 문제가 해결될 지는 모르겠습니다.

현재 KoLLaVA-1.5v 작업을 위해 데이터셋 구성중에 있는데요. 이후에 학습을 하며 말씀하신 문제의 해결방법이 있을지 확인해보겠습니다.

감사합니다.

tabtoyou commented 1 year ago

안녕하세요, 문의와 관련된 부분이 업데이트 된 KoLLaVA-1.5v 버전을 공개했습니다.

Pretrain을 통해 얻은 projection layer를 다운받으신 뒤 readme에 있는 방법을 참고해 qlora 학습이 가능합니다. 데이터셋의 경우 이전에 공개한 150K 데이터셋으로 학습 가능하며, 612K 데이터셋의 경우 곧 공개할 예정입니다.

업데이트한 코드로 말씀하신 부분에 대한 에러가 잘 해결되었으면 좋겠습니다. 감사합니다.

tabtoyou / KoLLaVA

7B pretrained 모델 공유 요청드립니다. #11