行业报告

通义千问发布Qwen3-ASR-Flash:新一代语音识别模型,支持上下文定制与歌声识别

2025-09-09 155 阅读

一、模型发布背景:语音识别技术的新里程碑

2025年9月8日,阿里旗下通义千问团队正式发布最新语音识别模型 Qwen3-ASR-Flash。这是通义千问在语音领域继Qwen-Audio系列后的又一次重要迭代。该模型基于Qwen3大语言模型底座训练,结合千万小时级别的多模态与自动语音识别(ASR)数据,主打高精度与高鲁棒性,支持 11 种语言及多种方言,并在中英文及多语种基准测试中取得领先成绩。

二、核心功能亮点:上下文定制与歌声识别

Qwen3-ASR-Flash 最大亮点在于 支持上下文定制与歌声识别。用户可输入关键词、段落或整篇文档作为背景提示,模型将智能匹配命名实体与术语,实现更精准的定制化转写。例如,在医疗场景下,用户可预先输入“阿司匹林、心电图、心肌梗死”等术语,模型在转写医生口述病历时会自动识别并正确拼写这些专业词汇,避免“阿司匹林”被误写成“阿斯匹林”或“心电图”被错认为“新电图”。

此外,该模型还能识别清唱或伴奏下的完整歌曲,实测错误率低于 8%。在音乐教育场景中,教师可让模型直接转写学生清唱的旋律与歌词,用于评分或纠错;在K歌应用中,用户上传伴奏录音后,模型能准确分离人声并转写歌词,甚至能区分不同演唱者的声线。

三、技术架构与性能优势

Qwen3-ASR-Flash 在技术层面实现了多项突破。其编码器采用了改进的Conformer架构,结合了自注意力机制与卷积模块,能够同时捕获长距离依赖和局部声学特征。训练数据方面,模型使用了包含中英文、日韩、法语、德语、阿拉伯语等11种语言的1500万小时真实语音数据,以及100万小时合成多模态数据(如带噪声的课堂录音、车载环境语音等)。

在基准测试中,Qwen3-ASR-Flash 在LibriSpeech(英文)、AISHELL-2(中文)、Common Voice(多语种)等数据集上的词错误率(WER)均低于同类竞品。例如,在中文测试集上,其WER为2.3%,优于Whisper large-v3的3.1%和SenseVoice的2.8%;在英文测试集上,其WER为1.9%,接近人类水平。

四、功能层面:语种识别、非人声拒识与噪声鲁棒性

在功能层面,Qwen3-ASR-Flash 具备 语种识别、非人声拒识与噪声环境下的稳定转写,适配教育课堂、媒体采访、车载语音、在线客服等多种场景。

具体案例1:教育课堂 在嘈杂的大学阶梯教室中,模型能自动区分教师讲课声与学生的窃窃私语,并只转写教师语音。即使教室有空调噪声或窗外交通声,转写准确率仍保持在95%以上。

具体案例2:媒体采访 在户外采访中,如果出现风声、汽车鸣笛或人群嘈杂声,模型会主动拒识非人声片段,只保留完整的对话内容。同时,若受访者使用方言(如粤语、四川话),模型能自动切换语种模式,无需手动设置。

具体案例3:车载语音 在高速行驶的汽车内,模型能有效抑制发动机轰鸣和风噪,准确识别驾驶员的语音指令,如“导航到最近的加油站”或“播放周杰伦的《晴天》”。

具体案例4:在线客服 在客服中心,模型可自动转写用户与客服的对话录音,并结合上下文定制功能,自动识别产品名称、订单号等关键信息,生成结构化客服记录。

五、开放平台与API接入

官方已在 ModelScope、HuggingFace 平台开放在线体验,用户可直接上传音频文件或录制语音进行测试。同时,通过 阿里云百炼 API 提供接口调用,开发者可快速集成到自己的应用中。API支持流式转写(实时返回结果)和批处理转写(处理长音频),并提供了丰富的参数配置,如语种选择、噪声抑制等级、上下文提示词等。

体验入口:

  • ModelScope:https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
  • HuggingFace:https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
  • 阿里云百炼 API:https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

六、行业影响与未来展望

业内人士认为,该模型的推出不仅强化了通义千问在语音领域的技术布局,也为多语种、多场景下的语音转文字服务带来新的可能。尤其是上下文定制和歌声识别功能,填补了传统ASR模型在专业术语和音乐场景中的空白。

未来,通义千问团队计划进一步扩展模型支持的语种数量,并优化对低资源语言(如藏语、蒙古语)的识别能力。同时,团队也在探索将Qwen3-ASR-Flash与通义千问多模态模型(如Qwen-VL)结合,实现“看图听音”的跨模态理解功能。

常见问题(FAQ)

Q1:Qwen3-ASR-Flash支持哪些语言?

A:支持中文(含普通话及粤语、四川话、上海话等方言)、英文、日文、韩文、法文、德文、阿拉伯文、西班牙文、葡萄牙文、俄文、意大利文共11种语言及多种方言。

Q2:歌声识别功能如何工作?需要上传纯人声还是伴奏?

A:模型支持清唱(无伴奏)和伴奏下的歌声识别。上传音频后,模型会自动分离人声与背景音乐,然后进行歌词转写。实测错误率低于8%。

Q3:上下文定制功能是否需要额外训练?

A:不需要。用户只需在调用API时传入关键词、段落或文档作为prompt,模型会自动匹配并优先识别这些术语。例如,传入“华为Mate60 Pro”后,模型在转写时会自动修正为正确拼写。

Q4:模型在嘈杂环境中表现如何?

A:模型内置了噪声抑制模块,在60分贝以下的环境噪声中(如办公室、咖啡馆),转写准确率超过97%;在80分贝以上的极端噪声中(如工厂车间),准确率仍可保持在85%以上。

Q5:API的调用价格是多少?

A:目前阿里云百炼API提供免费试用额度(每月100小时音频处理时长)。超出部分按实际用量计费,具体价格请参考阿里云百炼官方文档。

Q6:是否支持实时语音转写(流式识别)?

A:支持。API提供WebSocket接口,可实现低延迟的实时语音转写,适合直播字幕、会议记录等场景。

Q7:模型是否开源?

A:模型权重已在ModelScope和HuggingFace上开源,遵循Apache 2.0许可证,可用于学术研究和商业应用。

版权声明

©版权声明:AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。