gpt-omni / mini-omni

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.
https://arxiv.org/abs/2408.16725
MIT License
2.72k stars 252 forks source link

关于layershift的作用 #93

Open anliyuan opened 1 week ago

anliyuan commented 1 week ago

大佬,在读代码时候不太明白layershift的作用是什么,可以解答一下吗?

superFilicos commented 6 days ago

不同的audio head并行输出的时候,每个head需要享受它自己的输入序列。 可以理解为每一个audiohead 需要一个自己的小vocab。所以这些token的序号需要在原始snac的序号上 + (head_number * snac_vocab_size),这就是layershift,对于序号的layer状的shift。