阿里巴巴推出Qwen2.5-1M 开源模型,专门用来处理超长文本内容,支持上下文长度达到 100万Token。这意味着它可以在超长文档中找到关键信息,同时保持高性能和效率,非常适合处理复杂语言任务。

主要亮点

  1. 支持超长文本处理
    • 新版本模型支持的上下文长度从原来的 128K 提升到 1M Token
    • 这是目前少有的可以高效处理超长序列的开源模型。
  2. 新发布的两种版本
    • Qwen2.5-7B-Instruct-1M:参数量 70 亿,适合资源较少的应用。
    • Qwen2.5-14B-Instruct-1M:参数量 140 亿,性能更强大。
  3. 推理速度更快
    • 结合优化框架,推理速度比传统方法快 3 到 7 倍,尤其在处理超长序列时表现优异。

模型表现

Qwen2.5-1M 在处理 超长文本任务短文本任务 上都表现出了卓越的能力,尤其是在处理复杂的长上下文场景中,达到了开源模型的领先水平。


1. 超长文本任务表现

主要测试任务

  1. Passkey Retrieval
    • 从包含 1,000,000 Token 的文档中提取关键内容。
    • 表现
      • Qwen2.5-14B-Instruct-1M 准确率几乎完美,即使在复杂文档中也能找到正确答案。
      • Qwen2.5-7B-Instruct-1M 也表现良好,仅在极少数场景下出现轻微错误。
  2. LongBench 和 RULER 测试
    • 测试模型在长上下文理解任务中的表现。
    • 表现
      • Qwen2.5-1M 系列模型显著超越了 128K Token 版本,特别是在序列长度超过 64K 时,性能提升尤为显著。
      • Qwen2.5-14B-Instruct-1M 的表现超越了 GPT-4o-mini 和 Qwen2.5-Turbo。

2. 短文本任务表现

尽管 Qwen2.5-1M 专注于长序列任务,它在短文本任务中依然保持了高性能。

测试任务

  1. 使用常见学术基准(如 SQuAD 和 TriviaQA)测试。
  2. 将其与 Qwen2.5 的 128K Token 版本和 GPT-4o-mini 进行对比。

表现

  • 短文本任务准确性
    • Qwen2.5-7B 和 14B 的表现与 128K Token 版本几乎一致。
    • 相比 GPT-4o-mini,两款模型的表现相当,但支持的上下文长度是其 8 倍。

技术突破

  1. 长序列训练
    • 通过逐步扩展上下文长度,模型从最初支持 4K Token 增强到 256K,最后通过特殊方法支持 1M Token
    • 使用了一种叫 双块注意力机制(DCA) 的技术,解决了超长文本中位置编码效率下降的问题。
  2. 推理优化
    • 集成 稀疏注意力(Sparse Attention),大幅减少内存占用。
    • 推理阶段通过块状预填充(Chunked Prefill)技术,使显存需求减少 96.7%