通义千问发布Qwen3-ASR-Flash：新一代语音识别模型，支持上下文定制与歌声识别

一、模型发布背景：语音识别技术的新里程碑

2025年9月8日，阿里旗下通义千问团队正式发布最新语音识别模型 Qwen3-ASR-Flash。这是通义千问在语音领域继Qwen-Audio系列后的又一次重要迭代。该模型基于Qwen3大语言模型底座训练，结合千万小时级别的多模态与自动语音识别（ASR）数据，主打高精度与高鲁棒性，支持 11 种语言及多种方言，并在中英文及多语种基准测试中取得领先成绩。

二、核心功能亮点：上下文定制与歌声识别

Qwen3-ASR-Flash 最大亮点在于 支持上下文定制与歌声识别。用户可输入关键词、段落或整篇文档作为背景提示，模型将智能匹配命名实体与术语，实现更精准的定制化转写。例如，在医疗场景下，用户可预先输入“阿司匹林、心电图、心肌梗死”等术语，模型在转写医生口述病历时会自动识别并正确拼写这些专业词汇，避免“阿司匹林”被误写成“阿斯匹林”或“心电图”被错认为“新电图”。

此外，该模型还能识别清唱或伴奏下的完整歌曲，实测错误率低于 8%。在音乐教育场景中，教师可让模型直接转写学生清唱的旋律与歌词，用于评分或纠错；在K歌应用中，用户上传伴奏录音后，模型能准确分离人声并转写歌词，甚至能区分不同演唱者的声线。

三、技术架构与性能优势

Qwen3-ASR-Flash 在技术层面实现了多项突破。其编码器采用了改进的Conformer架构，结合了自注意力机制与卷积模块，能够同时捕获长距离依赖和局部声学特征。训练数据方面，模型使用了包含中英文、日韩、法语、德语、阿拉伯语等11种语言的1500万小时真实语音数据，以及100万小时合成多模态数据（如带噪声的课堂录音、车载环境语音等）。

在基准测试中，Qwen3-ASR-Flash 在LibriSpeech（英文）、AISHELL-2（中文）、Common Voice（多语种）等数据集上的词错误率（WER）均低于同类竞品。例如，在中文测试集上，其WER为2.3%，优于Whisper large-v3的3.1%和SenseVoice的2.8%；在英文测试集上，其WER为1.9%，接近人类水平。

四、功能层面：语种识别、非人声拒识与噪声鲁棒性

在功能层面，Qwen3-ASR-Flash 具备 语种识别、非人声拒识与噪声环境下的稳定转写，适配教育课堂、媒体采访、车载语音、在线客服等多种场景。

具体案例1：教育课堂 在嘈杂的大学阶梯教室中，模型能自动区分教师讲课声与学生的窃窃私语，并只转写教师语音。即使教室有空调噪声或窗外交通声，转写准确率仍保持在95%以上。

具体案例2：媒体采访 在户外采访中，如果出现风声、汽车鸣笛或人群嘈杂声，模型会主动拒识非人声片段，只保留完整的对话内容。同时，若受访者使用方言（如粤语、四川话），模型能自动切换语种模式，无需手动设置。

具体案例3：车载语音 在高速行驶的汽车内，模型能有效抑制发动机轰鸣和风噪，准确识别驾驶员的语音指令，如“导航到最近的加油站”或“播放周杰伦的《晴天》”。

具体案例4：在线客服 在客服中心，模型可自动转写用户与客服的对话录音，并结合上下文定制功能，自动识别产品名称、订单号等关键信息，生成结构化客服记录。

五、开放平台与API接入

官方已在 ModelScope、HuggingFace 平台开放在线体验，用户可直接上传音频文件或录制语音进行测试。同时，通过 阿里云百炼 API 提供接口调用，开发者可快速集成到自己的应用中。API支持流式转写（实时返回结果）和批处理转写（处理长音频），并提供了丰富的参数配置，如语种选择、噪声抑制等级、上下文提示词等。

体验入口：

ModelScope：https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
HuggingFace：https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼 API：https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

六、行业影响与未来展望

业内人士认为，该模型的推出不仅强化了通义千问在语音领域的技术布局，也为多语种、多场景下的语音转文字服务带来新的可能。尤其是上下文定制和歌声识别功能，填补了传统ASR模型在专业术语和音乐场景中的空白。

未来，通义千问团队计划进一步扩展模型支持的语种数量，并优化对低资源语言（如藏语、蒙古语）的识别能力。同时，团队也在探索将Qwen3-ASR-Flash与通义千问多模态模型（如Qwen-VL）结合，实现“看图听音”的跨模态理解功能。

常见问题（FAQ）

Q1：Qwen3-ASR-Flash支持哪些语言？

A：支持中文（含普通话及粤语、四川话、上海话等方言）、英文、日文、韩文、法文、德文、阿拉伯文、西班牙文、葡萄牙文、俄文、意大利文共11种语言及多种方言。

Q2：歌声识别功能如何工作？需要上传纯人声还是伴奏？

A：模型支持清唱（无伴奏）和伴奏下的歌声识别。上传音频后，模型会自动分离人声与背景音乐，然后进行歌词转写。实测错误率低于8%。

Q3：上下文定制功能是否需要额外训练？

A：不需要。用户只需在调用API时传入关键词、段落或文档作为prompt，模型会自动匹配并优先识别这些术语。例如，传入“华为Mate60 Pro”后，模型在转写时会自动修正为正确拼写。

Q4：模型在嘈杂环境中表现如何？

A：模型内置了噪声抑制模块，在60分贝以下的环境噪声中（如办公室、咖啡馆），转写准确率超过97%；在80分贝以上的极端噪声中（如工厂车间），准确率仍可保持在85%以上。

Q5：API的调用价格是多少？

A：目前阿里云百炼API提供免费试用额度（每月100小时音频处理时长）。超出部分按实际用量计费，具体价格请参考阿里云百炼官方文档。

Q6：是否支持实时语音转写（流式识别）？

A：支持。API提供WebSocket接口，可实现低延迟的实时语音转写，适合直播字幕、会议记录等场景。

Q7：模型是否开源？

A：模型权重已在ModelScope和HuggingFace上开源，遵循Apache 2.0许可证，可用于学术研究和商业应用。

通义千问发布Qwen3-ASR-Flash：新一代语音识别模型，支持上下文定制与歌声识别

一、模型发布背景：语音识别技术的新里程碑

二、核心功能亮点：上下文定制与歌声识别

三、技术架构与性能优势

四、功能层面：语种识别、非人声拒识与噪声鲁棒性

五、开放平台与API接入

六、行业影响与未来展望

常见问题（FAQ）

Q1：Qwen3-ASR-Flash支持哪些语言？

Q2：歌声识别功能如何工作？需要上传纯人声还是伴奏？

Q3：上下文定制功能是否需要额外训练？

Q4：模型在嘈杂环境中表现如何？

Q5：API的调用价格是多少？

Q6：是否支持实时语音转写（流式识别）？

Q7：模型是否开源？

版权声明

最新资讯

2026 AI趋势：大模型从“军备竞赛”走向“超级应用”与智能体生态

2026年AI工具推荐指南：5款提升效率的必备神器与选购攻略

2026 AI趋势：大模型从“参数竞赛”转向“实用主义”，应用爆发前夜

2026年AI工具推荐指南：从ChatGPT到DeepSeek，这5款神器让你效率翻倍

2026 AI趋势：大模型从“军备竞赛”迈向超级应用落地元年

2026年AI工具推荐指南：职场效率翻倍的5款神器和选购秘籍