Closed LIKP0 closed 5 days ago
感谢,可以参考https://github.com/deepseek-ai/DeepSeek-MoE,希望能对你有帮助。
谢谢,感谢你的帮助
感谢,可以参考https://github.com/deepseek-ai/DeepSeek-MoE,希望能对你有帮助。
| ### compute gating score | hidden_states = hidden_states.view(-1, h) | logits = F.linear(hidden_states, self.weight, None)
您好!非常感谢你们的工作,InternVL作为开源模型实在是太酷了,非常有意义的工作!
出于兴趣,我想探索如何在InternVL中加入混合专家模型,请问有什么建议吗?我的基础知识比较薄弱,不知道该从何处下手,希望有人能给出一些思路,谢谢!我现在使用的是InternVL1.5-Mini4B版本(是的我只能运行这么小的模型...)
再次感谢你们的卓越工作!
兄弟你实现了吗
您好!非常感谢你们的工作,InternVL作为开源模型实在是太酷了,非常有意义的工作! 出于兴趣,我想探索如何在InternVL中加入混合专家模型,请问有什么建议吗?我的基础知识比较薄弱,不知道该从何处下手,希望有人能给出一些思路,谢谢!我现在使用的是InternVL1.5-Mini4B版本(是的我只能运行这么小的模型...) 再次感谢你们的卓越工作!
兄弟你实现了吗
遇到了同样的问题,hidden states后面接个FC就会出现nan,大佬发现原因了嘛
您好!非常感谢你们的工作,InternVL作为开源模型实在是太酷了,非常有意义的工作! 出于兴趣,我想探索如何在InternVL中加入混合专家模型,请问有什么建议吗?我的基础知识比较薄弱,不知道该从何处下手,希望有人能给出一些思路,谢谢!我现在使用的是InternVL1.5-Mini4B版本(是的我只能运行这么小的模型...) 再次感谢你们的卓越工作!
兄弟你实现了吗
遇到了同样的问题,hidden states后面接个FC就会出现nan,大佬发现原因了嘛
不知道问题在哪唉,无从下手了
我正在尝试用https://huggingface.co/microsoft/Phi-3.5-MoE-instruct的language model来做MoE,直接替换modeling_intenvl_chat.py里面的Phi3ForCausalLM模型,感觉是种相对简单的方法,还没有细看
您好!非常感谢你们的工作,InternVL作为开源模型实在是太酷了,非常有意义的工作! 出于兴趣,我想探索如何在InternVL中加入混合专家模型,请问有什么建议吗?我的基础知识比较薄弱,不知道该从何处下手,希望有人能给出一些思路,谢谢!我现在使用的是InternVL1.5-Mini4B版本(是的我只能运行这么小的模型...) 再次感谢你们的卓越工作!
兄弟你实现了吗
遇到了同样的问题,hidden states后面接个FC就会出现nan,大佬发现原因了嘛
不知道问题在哪唉,无从下手了
同样的问题,我强行用矩阵实现的linear
您好!非常感谢你们的工作,InternVL作为开源模型实在是太酷了,非常有意义的工作! 出于兴趣,我想探索如何在InternVL中加入混合专家模型,请问有什么建议吗?我的基础知识比较薄弱,不知道该从何处下手,希望有人能给出一些思路,谢谢!我现在使用的是InternVL1.5-Mini4B版本(是的我只能运行这么小的模型...) 再次感谢你们的卓越工作!
兄弟你实现了吗
遇到了同样的问题,hidden states后面接个FC就会出现nan,大佬发现原因了嘛
不知道问题在哪唉,无从下手了
同样的问题,我强行用矩阵实现的linear
我发现在model = InternVLChatModel.from_pretrained(model_args.model_name_or_path, torch_dtype=torch.bfloat16, config=config)之后再初始化FC就可以解决,否则weight里面会有nan
InternVLChatModel
我在InternVLChatModel加了个初始化函数
InternVLChatModel
我在InternVLChatModel加了个初始化函数
可以分享一下代码吗,本身不都在init初始化函数里吗,没太理解🥹
您好!非常感谢你们的工作,InternVL作为开源模型实在是太酷了,非常有意义的工作!
出于兴趣,我想探索如何在InternVL中加入混合专家模型,请问有什么建议吗?我的基础知识比较薄弱,不知道该从何处下手,希望有人能给出一些思路,谢谢!我现在使用的是InternVL1.5-Mini4B版本(是的我只能运行这么小的模型...)
再次感谢你们的卓越工作!