西瓜资讯

Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

2025-04-27

今天,kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。

结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。

例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。VocalSound 测试上,Kimi 达 94.85%,接近满分 。MMAU 任务中,Kimi-Audio 摘得两项最高分;VoiceBench 设计评测对话助手的语音理解能力,Kimi-Audio 在所有子任务中得分最高,包括一项满分。

研发人员开发了评估工具包,可在多个基准任务上对音频 LLM 进行公平、全面评估 ,五款音频模型(Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni)在各类音频基准测试中的表现对比。紫线(Kimi-Audio)基本覆盖最外层,表明其综合表现最佳。

目前,模型代码、模型检查点以及评估工具包已经在 Github 上开源。

项目链接:https://github.com/MoonshotAI/Kimi-Audio

新颖的架构设计

为实现 SOTA 级别的通用音频建模, Kimi-Audio 采用了集成式架构设计,包括三个核心组件 —— 音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。

这一架构使 Kimi-Audio 能够在单一模型框架下,流畅地处理从语音识别、理解到语音对话等多种音频语言任务。

Kimi-Audio 由三个主要组件组成:音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。

最新文章

秒变细节狂魔!仅3B逆袭GPT-4o

智能

 

阅读17904

Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

科技

 

阅读14391

打造国产大飞机时序大模型智能诊断新路径

科技

 

阅读16111

20万奖金池×最火技术风口!

智能

 

阅读10819

除了谷歌,没人玩得转Chrome浏览器

数码

 

阅读10807

晋ICP备2024051176号-31