西瓜资讯

Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

2025-04-27

今天，kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的 (SOTA) 性能。

结果显示，Kimi-Audio 总体性能排名第一，几乎没有明显短板。

例如在 LibriSpeech ASR 测试上，Kimi-Audio 的 WER 仅 1.28%，显著优于其他模型。VocalSound 测试上，Kimi 达 94.85%，接近满分。MMAU 任务中，Kimi-Audio 摘得两项最高分；VoiceBench 设计评测对话助手的语音理解能力，Kimi-Audio 在所有子任务中得分最高，包括一项满分。

研发人员开发了评估工具包，可在多个基准任务上对音频 LLM 进行公平、全面评估，五款音频模型（Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni）在各类音频基准测试中的表现对比。紫线（Kimi-Audio）基本覆盖最外层，表明其综合表现最佳。

目前，模型代码、模型检查点以及评估工具包已经在 Github 上开源。

项目链接：https://github.com/MoonshotAI/Kimi-Audio

新颖的架构设计

为实现 SOTA 级别的通用音频建模， Kimi-Audio 采用了集成式架构设计，包括三个核心组件 —— 音频分词器（Audio Tokenizer）、音频大模型（Audio LLM）、音频去分词器（Audio Detokenizer）。

这一架构使 Kimi-Audio 能够在单一模型框架下，流畅地处理从语音识别、理解到语音对话等多种音频语言任务。

Kimi-Audio 由三个主要组件组成：音频分词器（Audio Tokenizer）、音频大模型（Audio LLM）、音频去分词器（Audio Detokenizer）。

页码:下一页

Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

最新文章