复旦大学 OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型。旨在实现类似 GPT-4o 的多模态对话能力。
其核心目标是 感知与表达情感,具有拟人化的实时语音交互能力,能够精准捕捉用户指令,实现多情感、多风格、多音色的智能切换,同时也具备工具调用、联网搜索等功能。
- 官方介绍及更多演示:https://www.open-moss.com/en/speechgpt2-preview/
- 实时对话能力:支持语音打断和自然互动,生成流畅的语音对话。
- 情感与风格的多样性:可根据指令生成多情感、多风格的语音,包括模拟特定角色的情绪。
- 声音表达:实现了高度定制化的声音生成能力,如讲故事、诗歌朗诵和模仿方言。
-
主要功能与特点
1. 实时语音交互能力
- 低延迟响应:响应时间低于 200 毫秒,支持毫秒级实时语音交互。
- 自然流畅的对话:允许语音打断并在对话中无缝衔接,提供人类式的语音互动体验。
2. 多情感、多风格语音生成
- 丰富的情感控制:支持生成多种情感语音,如欢快、严肃、悲伤等。
- 语音风格多样化:可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格,适配不同场景需求。
- 语音表现力强:适合诗歌朗诵、讲故事、方言交流等场景,展现出卓越的声音表现能力。
3. 强大的语音-文本联合建模
- 语义与声学联合建模:
- 将语音的语义和声学特性统一表示,实现更自然的语音输出。
- 支持语音和文本输入输出的灵活组合。
- 跨模态能力:
- 能够无缝整合语音与文本,使其不仅能生成语音,还可以同时输出文字描述或进行工具调用。
4. 智能工具与知识访问
- 逻辑与智能能力:
- 支持调用外部工具、执行在线搜索以及访问知识库。
- 具备文本和语音的深度处理能力,在语音生成的同时展现出强大的逻辑推理能力。
5.支持多语言,嘈杂环境也能用
- 中英文混合说:比如前半句中文,后半句英文,它也能理解。
- 抗干扰升级:在有点吵闹的环境(比如地铁里),识别准确率比传统语音助手更高(但特别吵的地方还是可能出错)。
技术方法
SpeechGPT 2.0 结合了多项前沿技术,以实现自然流畅的语音对话、多情感表达,以及语音与文字的无缝结合。以下是其核心技术方法的详细说明:
1. 语义-声学联合建模
- 核心概念:
- 将语音的语义信息(比如句子含义)和声学信息(比如音调、语速)结合起来进行建模。
- 技术特点:
- 使用 超低码率语音编解码器,以 750bps(每秒仅需 75 Token)对语音数据进行高效压缩和处理。
- 既保持了语音数据的质量,又降低了计算和存储的开销。
- 效果:
- 支持实时的语音输入输出,延迟低至 200 毫秒以下。
- 支持实时的语音输入输出,延迟低至 200 毫秒以下。
2. Codec Patchify 技术
- 解决问题:
- 语音和文本是两种不同的数据形式,直接结合容易导致信息不匹配。
- 技术原理:
- 使用 Codec Patchify 方法将语音数据划分为小块(Patch),并通过投影模块将这些小块映射为统一的向量表示。
- 将语音和文字转化为统一格式后,交由大语言模型(LLM)进行联合建模。
- 优势:
- 解决了语音和文字的“模态冲突”,实现跨模态的高效建模。
- 解决了语音和文字的“模态冲突”,实现跨模态的高效建模。
3. 自回归多头解码器
- 技术实现:
- 使用一个多头语言模型解码器,将模型的隐藏状态同时用于两个任务:
- 生成文字输出。
- 生成语音输出(通过预测语音编码 token)。
- 解码器以逐步生成的方式生成多个语音 token,最终形成完整语音。
- 使用一个多头语言模型解码器,将模型的隐藏状态同时用于两个任务:
- 技术特点:
- 同时支持语音和文字生成,具备高度灵活性。
4. 多情感、多风格生成
- 技术实现:
- 在训练过程中,模型接收多样化的数据输入,包括不同情感(如喜悦、悲伤)和风格(如正式、随意)。
- 模型通过强化学习,从人类反馈中学习如何更好地调整语音表达。
- 关键能力:
- 能根据用户需求调整语速、语调和情感。
- 具备模仿特定角色语音的能力,如模仿小孩或演讲者的语气。
5. 跨模态联合建模
- 语音-文本联合输入输出:
- 模型可以同时接收语音和文字输入,将两者结合后进行理解和处理。
- 输出可以是语音、文字或两者的组合。
- 功能扩展:
- 支持调用外部工具(如知识库或搜索引擎),从而增强智能对话的深度。
6. 多阶段训练策略
- 数据预处理:
- 使用大规模语音和文字数据进行预训练,涵盖多种情感、风格和角色。
- 训练架构:
- 引入混合训练策略,确保模型既能生成高质量语音,又不会降低文本生成能力。
- 强化学习与人类反馈:
- 使用 RLHF(强化学习加人类反馈)技术,优化模型在语音生成过程中的表现力和稳定性。
7. 超低码率编解码器
- 技术特点:
- 对 24kHz 的高质量语音进行压缩,码率仅为 750bps。
- 支持流式传输,适合实时语音对话。
- 优势:
- 在保持高音质的同时,显著降低了计算资源需求。
8. 实验结果与发现
- 语速控制:
- 模型能够自主调整语速,即使没有明确的训练目标也能学习这种能力。
- 风格泛化:
- 通过对大量不同风格数据的预训练,模型可以模拟从未见过的语气和角色。
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!