这个模型后续还会继续做迭代维护吗

gpt-omni / mini-omni

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.

https://arxiv.org/abs/2408.16725

MIT License

2.47k stars 241 forks source link

这个模型后续还会继续做迭代维护吗 #61

Closed liangwq closed 4 days ago

liangwq commented 1 week ago

Hi，清华老哥你这个模型后面还会继续做迭代吗，还是发完论文就不再迭代了这个模型感觉还可以出一个系列的文章，同时也可以做进一步产品优化比如可以增加中文、多语言增加语音到文本输出增加同声传译功能（指令控制语音输出），输入讲英文时时输出中文语音

superFilicos commented 1 week ago

下一次迭代是数据集发布，然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o，欢迎联系我哈

GuangChen2016 commented 1 week ago

@superFilicos 请问会做一些训练代码上的公开吗？如果不公开的话，想请教一下训练时不同阶段的输入输出形式的组成吗？

Modality Alignment：AudioToAudio（完成ASR+TTS），AudioToText（ASR），这个时候是每个step这两种模式随机选择一个进行训练？
Adaption Training：只有TextToText这种模式
Multi-modal Finetuning. AudioToAudio，AudioToText， TextToText， TextToAudio，这个时候是每个step这四种模式随机选择一个进行训练？
当目标只有Text输出的时候，比如AudioToText， TextToText时，output是什么样的形式呢？

EtFourier commented 1 week ago

下一次迭代是数据集发布，然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o，欢迎联系我哈

大佬你好，这里的“图像的上线”是指什么呀？

Theshyskx commented 1 week ago

38292b4313e91108ac635b60127c641d 语音问问题，但是智能体回复的语音都是0秒，这是怎么回事。有没有大佬知道是怎么回事吗

superFilicos commented 1 week ago

下一次迭代是数据集发布，然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o，欢迎联系我哈

大佬你好，这里的“图像的上线”是指什么呀？

视频通话哈

ZillaRU commented 1 week ago

下一次迭代是数据集发布，然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o，欢迎联系我哈

大佬你好，这里的“图像的上线”是指什么呀？

视频通话哈

请问后续更新会涉及微调代码的公开吗？

mini-omni commented 1 week ago

Hi，清华老哥你这个模型后面还会继续做迭代吗，还是发完论文就不再迭代了这个模型感觉还可以出一个系列的文章，同时也可以做进一步产品优化比如可以增加中文、多语言增加语音到文本输出增加同声传译功能（指令控制语音输出），输入讲英文时时输出中文语音

挺好的提议，其中多语言、中文；同声传译这些功能主要核心在于数据哈。语音到文本的输出目前是支持的，当前的版本默认就是同时输出语音或文本哈。

mini-omni commented 1 week ago

@superFilicos 请问会做一些训练代码上的公开吗？如果不公开的话，想请教一下训练时不同阶段的输入输出形式的组成吗？

Modality Alignment：AudioToAudio（完成ASR+TTS），AudioToText（ASR），这个时候是每个step这两种模式随机选择一个进行训练？

Adaption Training：只有TextToText这种模式

Multi-modal Finetuning. AudioToAudio，AudioToText， TextToText， TextToAudio，这个时候是每个step这四种模式随机选择一个进行训练？

当目标只有Text输出的时候，比如AudioToText， TextToText时，output是什么样的形式呢？

step中可以多个sample，每个sample的任务可能是随机的哈
这里主要是text2text, audio2text两种任务
同1，每个step可以多个任务同时进行
output中audio部分不算loss，数据组织上可以直接

mini-omni commented 1 week ago

语音问问题，但是智能体回复的语音都是0秒，这是怎么回事。有没有大佬知道是怎么回事吗

建议可以单独提一个issue哈，可以把streamlit后台，以及服务端后台的相关log贴出来

mini-omni commented 1 week ago

下一次迭代是数据集发布，然后是打断功能和图像的上线。我们会做出一个最简单的gpt4o，欢迎联系我哈

大佬你好，这里的“图像的上线”是指什么呀？

视频通话哈

请问后续更新会涉及微调代码的公开吗？

目前暂时不能开源训练代码哈，谢谢理解。实现上有什么问题，欢迎提issue讨论。

hexastrayer commented 5 days ago

@superFilicos 请问会做一些训练代码上的公开吗？如果不公开的话，想请教一下训练时不同阶段的输入输出形式的组成吗？

Modality Alignment：AudioToAudio（完成ASR+TTS），AudioToText（ASR），这个时候是每个step这两种模式随机选择一个进行训练？

Adaption Training：只有TextToText这种模式

Multi-modal Finetuning. AudioToAudio，AudioToText， TextToText， TextToAudio，这个时候是每个step这四种模式随机选择一个进行训练？

当目标只有Text输出的时候，比如AudioToText， TextToText时，output是什么样的形式呢？

step中可以多个sample，每个sample的任务可能是随机的哈

这里主要是text2text, audio2text两种任务

同1，每个step可以多个任务同时进行

output中audio部分不算loss，数据组织上可以直接

请问第一个stage 有 Audio2Audio（完成ASR+TTS）任务吗？还是只有ASR和TTS两个任务。

mini-omni commented 5 days ago

@superFilicos 请问会做一些训练代码上的公开吗？如果不公开的话，想请教一下训练时不同阶段的输入输出形式的组成吗？

Modality Alignment：AudioToAudio（完成ASR+TTS），AudioToText（ASR），这个时候是每个step这两种模式随机选择一个进行训练？

Adaption Training：只有TextToText这种模式

Multi-modal Finetuning. AudioToAudio，AudioToText， TextToText， TextToAudio，这个时候是每个step这四种模式随机选择一个进行训练？

当目标只有Text输出的时候，比如AudioToText， TextToText时，output是什么样的形式呢？

step中可以多个sample，每个sample的任务可能是随机的哈

这里主要是text2text, audio2text两种任务

同1，每个step可以多个任务同时进行

output中audio部分不算loss，数据组织上可以直接

请问第一个stage 有 Audio2Audio（完成ASR+TTS）任务吗？还是只有ASR和TTS两个任务。

stage 1目的只是做ASR和TTS两个任务，没有Audio2Audio，图示中目前没有把tts的输入文本画上去。

mini-omni commented 5 days ago

dupe question: https://github.com/gpt-omni/mini-omni/issues/7

mini-omni commented 4 days ago

I'll close it for now, please feel free to re-open.