gpt-omni / mini-omni

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.
https://arxiv.org/abs/2408.16725
MIT License
2.47k stars 241 forks source link

这个模型后续还会继续做迭代维护吗 #61

Closed liangwq closed 4 days ago

liangwq commented 1 week ago

Hi,清华老哥 你这个模型后面还会继续做迭代吗,还是发完论文就不再迭代了 这个模型感觉还可以出一个系列的文章,同时也可以做进一步产品优化 比如可以增加中文、多语言 增加语音到文本输出 增加同声传译功能(指令控制语音输出),输入讲英文时时输出中文语音

superFilicos commented 1 week ago

下一次迭代是数据集发布,然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o,欢迎联系我哈

GuangChen2016 commented 1 week ago

@superFilicos 请问会做一些训练代码上的公开吗? 如果不公开的话,想请教一下训练时不同阶段的输入输出形式的组成吗?

  1. Modality Alignment:AudioToAudio(完成ASR+TTS),AudioToText(ASR), 这个时候是每个step这两种模式随机选择一个进行训练?
  2. Adaption Training:只有TextToText这种模式
  3. Multi-modal Finetuning. AudioToAudio,AudioToText, TextToText, TextToAudio, 这个时候是每个step这四种模式随机选择一个进行训练?
  4. 当目标只有Text输出的时候,比如AudioToText, TextToText时,output是什么样的形式呢?
EtFourier commented 1 week ago

下一次迭代是数据集发布,然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o,欢迎联系我哈

大佬你好,这里的“图像的上线”是指什么呀?

Theshyskx commented 1 week ago

38292b4313e91108ac635b60127c641d 语音问问题,但是智能体回复的语音都是0秒,这是怎么回事。有没有大佬知道是怎么回事吗

superFilicos commented 1 week ago

下一次迭代是数据集发布,然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o,欢迎联系我哈

大佬你好,这里的“图像的上线”是指什么呀?

视频通话哈

ZillaRU commented 1 week ago

下一次迭代是数据集发布,然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o,欢迎联系我哈

大佬你好,这里的“图像的上线”是指什么呀?

视频通话哈

请问后续更新会涉及微调代码的公开吗?

mini-omni commented 1 week ago

Hi,清华老哥 你这个模型后面还会继续做迭代吗,还是发完论文就不再迭代了 这个模型感觉还可以出一个系列的文章,同时也可以做进一步产品优化 比如可以增加中文、多语言 增加语音到文本输出 增加同声传译功能(指令控制语音输出),输入讲英文时时输出中文语音

挺好的提议,其中多语言、中文;同声传译这些功能主要核心在于数据哈。语音到文本的输出目前是支持的,当前的版本默认就是同时输出语音或文本哈。

mini-omni commented 1 week ago

@superFilicos 请问会做一些训练代码上的公开吗? 如果不公开的话,想请教一下训练时不同阶段的输入输出形式的组成吗?

  1. Modality Alignment:AudioToAudio(完成ASR+TTS),AudioToText(ASR), 这个时候是每个step这两种模式随机选择一个进行训练?
  2. Adaption Training:只有TextToText这种模式
  3. Multi-modal Finetuning. AudioToAudio,AudioToText, TextToText, TextToAudio, 这个时候是每个step这四种模式随机选择一个进行训练?
  4. 当目标只有Text输出的时候,比如AudioToText, TextToText时,output是什么样的形式呢?
  1. step中可以多个sample,每个sample的任务可能是随机的哈
  2. 这里主要是text2text, audio2text两种任务
  3. 同1,每个step可以多个任务同时进行
  4. output中audio部分不算loss,数据组织上可以直接
mini-omni commented 1 week ago

38292b4313e91108ac635b60127c641d 语音问问题,但是智能体回复的语音都是0秒,这是怎么回事。有没有大佬知道是怎么回事吗

建议可以单独提一个issue哈,可以把streamlit后台,以及服务端后台的相关log贴出来

mini-omni commented 1 week ago

下一次迭代是数据集发布,然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o,欢迎联系我哈

大佬你好,这里的“图像的上线”是指什么呀?

视频通话哈

请问后续更新会涉及微调代码的公开吗?

目前暂时不能开源训练代码哈,谢谢理解。实现上有什么问题,欢迎提issue讨论。

hexastrayer commented 5 days ago

@superFilicos 请问会做一些训练代码上的公开吗? 如果不公开的话,想请教一下训练时不同阶段的输入输出形式的组成吗?

  1. Modality Alignment:AudioToAudio(完成ASR+TTS),AudioToText(ASR), 这个时候是每个step这两种模式随机选择一个进行训练?
  2. Adaption Training:只有TextToText这种模式
  3. Multi-modal Finetuning. AudioToAudio,AudioToText, TextToText, TextToAudio, 这个时候是每个step这四种模式随机选择一个进行训练?
  4. 当目标只有Text输出的时候,比如AudioToText, TextToText时,output是什么样的形式呢?
  1. step中可以多个sample,每个sample的任务可能是随机的哈
  2. 这里主要是text2text, audio2text两种任务
  3. 同1,每个step可以多个任务同时进行
  4. output中audio部分不算loss,数据组织上可以直接

请问第一个stage 有 Audio2Audio(完成ASR+TTS)任务吗?还是只有ASR和TTS两个任务。

mini-omni commented 5 days ago

@superFilicos 请问会做一些训练代码上的公开吗? 如果不公开的话,想请教一下训练时不同阶段的输入输出形式的组成吗?

  1. Modality Alignment:AudioToAudio(完成ASR+TTS),AudioToText(ASR), 这个时候是每个step这两种模式随机选择一个进行训练?
  2. Adaption Training:只有TextToText这种模式
  3. Multi-modal Finetuning. AudioToAudio,AudioToText, TextToText, TextToAudio, 这个时候是每个step这四种模式随机选择一个进行训练?
  4. 当目标只有Text输出的时候,比如AudioToText, TextToText时,output是什么样的形式呢?
  1. step中可以多个sample,每个sample的任务可能是随机的哈
  2. 这里主要是text2text, audio2text两种任务
  3. 同1,每个step可以多个任务同时进行
  4. output中audio部分不算loss,数据组织上可以直接

请问第一个stage 有 Audio2Audio(完成ASR+TTS)任务吗?还是只有ASR和TTS两个任务。

stage 1目的只是做ASR和TTS两个任务,没有Audio2Audio,图示中目前没有把tts的输入文本画上去。

mini-omni commented 5 days ago

dupe question: https://github.com/gpt-omni/mini-omni/issues/7

mini-omni commented 4 days ago

I'll close it for now, please feel free to re-open.