2025年9月8日,阿里旗下通义千问团队正式发布最新语音识别模型 Qwen3-ASR-Flash。这是通义千问在语音领域继Qwen-Audio系列后的又一次重要迭代。该模型基于Qwen3大语言模型底座训练,结合千万小时级别的多模态与自动语音识别(ASR)数据,主打高精度与高鲁棒性,支持 11 种语言及多种方言,并在中英文及多语种基准测试中取得领先成绩。
Qwen3-ASR-Flash 最大亮点在于 支持上下文定制与歌声识别。用户可输入关键词、段落或整篇文档作为背景提示,模型将智能匹配命名实体与术语,实现更精准的定制化转写。例如,在医疗场景下,用户可预先输入“阿司匹林、心电图、心肌梗死”等术语,模型在转写医生口述病历时会自动识别并正确拼写这些专业词汇,避免“阿司匹林”被误写成“阿斯匹林”或“心电图”被错认为“新电图”。
此外,该模型还能识别清唱或伴奏下的完整歌曲,实测错误率低于 8%。在音乐教育场景中,教师可让模型直接转写学生清唱的旋律与歌词,用于评分或纠错;在K歌应用中,用户上传伴奏录音后,模型能准确分离人声并转写歌词,甚至能区分不同演唱者的声线。
Qwen3-ASR-Flash 在技术层面实现了多项突破。其编码器采用了改进的Conformer架构,结合了自注意力机制与卷积模块,能够同时捕获长距离依赖和局部声学特征。训练数据方面,模型使用了包含中英文、日韩、法语、德语、阿拉伯语等11种语言的1500万小时真实语音数据,以及100万小时合成多模态数据(如带噪声的课堂录音、车载环境语音等)。
在基准测试中,Qwen3-ASR-Flash 在LibriSpeech(英文)、AISHELL-2(中文)、Common Voice(多语种)等数据集上的词错误率(WER)均低于同类竞品。例如,在中文测试集上,其WER为2.3%,优于Whisper large-v3的3.1%和SenseVoice的2.8%;在英文测试集上,其WER为1.9%,接近人类水平。
在功能层面,Qwen3-ASR-Flash 具备 语种识别、非人声拒识与噪声环境下的稳定转写,适配教育课堂、媒体采访、车载语音、在线客服等多种场景。
具体案例1:教育课堂 在嘈杂的大学阶梯教室中,模型能自动区分教师讲课声与学生的窃窃私语,并只转写教师语音。即使教室有空调噪声或窗外交通声,转写准确率仍保持在95%以上。
具体案例2:媒体采访 在户外采访中,如果出现风声、汽车鸣笛或人群嘈杂声,模型会主动拒识非人声片段,只保留完整的对话内容。同时,若受访者使用方言(如粤语、四川话),模型能自动切换语种模式,无需手动设置。
具体案例3:车载语音 在高速行驶的汽车内,模型能有效抑制发动机轰鸣和风噪,准确识别驾驶员的语音指令,如“导航到最近的加油站”或“播放周杰伦的《晴天》”。
具体案例4:在线客服 在客服中心,模型可自动转写用户与客服的对话录音,并结合上下文定制功能,自动识别产品名称、订单号等关键信息,生成结构化客服记录。
官方已在 ModelScope、HuggingFace 平台开放在线体验,用户可直接上传音频文件或录制语音进行测试。同时,通过 阿里云百炼 API 提供接口调用,开发者可快速集成到自己的应用中。API支持流式转写(实时返回结果)和批处理转写(处理长音频),并提供了丰富的参数配置,如语种选择、噪声抑制等级、上下文提示词等。
体验入口:
业内人士认为,该模型的推出不仅强化了通义千问在语音领域的技术布局,也为多语种、多场景下的语音转文字服务带来新的可能。尤其是上下文定制和歌声识别功能,填补了传统ASR模型在专业术语和音乐场景中的空白。
未来,通义千问团队计划进一步扩展模型支持的语种数量,并优化对低资源语言(如藏语、蒙古语)的识别能力。同时,团队也在探索将Qwen3-ASR-Flash与通义千问多模态模型(如Qwen-VL)结合,实现“看图听音”的跨模态理解功能。