复旦大学 OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型。旨在实现类似 GPT-4o 的多模态对话能力。

其核心目标是 感知与表达情感,具有拟人化的实时语音交互能力,能够精准捕捉用户指令,实现多情感、多风格、多音色的智能切换,同时也具备工具调用、联网搜索等功能。

  • 实时对话能力:支持语音打断和自然互动,生成流畅的语音对话。
  • 情感与风格的多样性:可根据指令生成多情感、多风格的语音,包括模拟特定角色的情绪。
  • 声音表达:实现了高度定制化的声音生成能力,如讲故事、诗歌朗诵和模仿方言。
  • 主要功能与特点

    1. 实时语音交互能力

    • 低延迟响应:响应时间低于 200 毫秒,支持毫秒级实时语音交互。
    • 自然流畅的对话:允许语音打断并在对话中无缝衔接,提供人类式的语音互动体验。

    2. 多情感、多风格语音生成

    • 丰富的情感控制:支持生成多种情感语音,如欢快、严肃、悲伤等。
    • 语音风格多样化:可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格,适配不同场景需求。
    • 语音表现力强:适合诗歌朗诵、讲故事、方言交流等场景,展现出卓越的声音表现能力。

    3. 强大的语音-文本联合建模

    • 语义与声学联合建模
      • 将语音的语义和声学特性统一表示,实现更自然的语音输出。
      • 支持语音和文本输入输出的灵活组合。
    • 跨模态能力
      • 能够无缝整合语音与文本,使其不仅能生成语音,还可以同时输出文字描述或进行工具调用。

    4. 智能工具与知识访问

    • 逻辑与智能能力
      • 支持调用外部工具、执行在线搜索以及访问知识库。
      • 具备文本和语音的深度处理能力,在语音生成的同时展现出强大的逻辑推理能力。

    5.支持多语言,嘈杂环境也能用

    • 中英文混合说:比如前半句中文,后半句英文,它也能理解。
    • 抗干扰升级:在有点吵闹的环境(比如地铁里),识别准确率比传统语音助手更高(但特别吵的地方还是可能出错)。

    技术方法

    SpeechGPT 2.0 结合了多项前沿技术,以实现自然流畅的语音对话、多情感表达,以及语音与文字的无缝结合。以下是其核心技术方法的详细说明:


    1. 语义-声学联合建模

    • 核心概念
      • 将语音的语义信息(比如句子含义)和声学信息(比如音调、语速)结合起来进行建模。
    • 技术特点
      • 使用 超低码率语音编解码器,以 750bps(每秒仅需 75 Token)对语音数据进行高效压缩和处理。
      • 既保持了语音数据的质量,又降低了计算和存储的开销。
    • 效果
      • 支持实时的语音输入输出,延迟低至 200 毫秒以下。

    2. Codec Patchify 技术

    • 解决问题
      • 语音和文本是两种不同的数据形式,直接结合容易导致信息不匹配。
    • 技术原理
      • 使用 Codec Patchify 方法将语音数据划分为小块(Patch),并通过投影模块将这些小块映射为统一的向量表示。
      • 将语音和文字转化为统一格式后,交由大语言模型(LLM)进行联合建模。
    • 优势
      • 解决了语音和文字的“模态冲突”,实现跨模态的高效建模。

    3. 自回归多头解码器

    • 技术实现
      • 使用一个多头语言模型解码器,将模型的隐藏状态同时用于两个任务:
        1. 生成文字输出
        2. 生成语音输出(通过预测语音编码 token)。
      • 解码器以逐步生成的方式生成多个语音 token,最终形成完整语音。
    • 技术特点
      • 同时支持语音和文字生成,具备高度灵活性。

    4. 多情感、多风格生成

    • 技术实现
      • 在训练过程中,模型接收多样化的数据输入,包括不同情感(如喜悦、悲伤)和风格(如正式、随意)。
      • 模型通过强化学习,从人类反馈中学习如何更好地调整语音表达。
    • 关键能力
      • 能根据用户需求调整语速、语调和情感。
      • 具备模仿特定角色语音的能力,如模仿小孩或演讲者的语气。

    5. 跨模态联合建模

    • 语音-文本联合输入输出
      • 模型可以同时接收语音和文字输入,将两者结合后进行理解和处理。
      • 输出可以是语音、文字或两者的组合。
    • 功能扩展
      • 支持调用外部工具(如知识库或搜索引擎),从而增强智能对话的深度。

    6. 多阶段训练策略

    • 数据预处理
      • 使用大规模语音和文字数据进行预训练,涵盖多种情感、风格和角色。
    • 训练架构
      • 引入混合训练策略,确保模型既能生成高质量语音,又不会降低文本生成能力。
    • 强化学习与人类反馈
      • 使用 RLHF(强化学习加人类反馈)技术,优化模型在语音生成过程中的表现力和稳定性。

    7. 超低码率编解码器

    • 技术特点
      • 对 24kHz 的高质量语音进行压缩,码率仅为 750bps。
      • 支持流式传输,适合实时语音对话。
    • 优势
      • 在保持高音质的同时,显著降低了计算资源需求。

    8. 实验结果与发现

    • 语速控制
      • 模型能够自主调整语速,即使没有明确的训练目标也能学习这种能力。
    • 风格泛化
      • 通过对大量不同风格数据的预训练,模型可以模拟从未见过的语气和角色。