雷军:第二届音频编码器能力挑战赛明年9月将同步亮相Interspeech 2026,已开放报名

新浪科技
Dec 15, 2025

  12月15日,小米公司创始人、董事长、首席执行官雷军发文宣布,小米联合萨里大学、清华大学、海天瑞声联合发起第二届音频编码器能力挑战赛,将于明年9月同步亮相国际语音顶级会议 Interspeech 2026,目前已正式开放报名。

  雷军表示,本次挑战赛旨在推动音频编码器对音频大语言模型(LALM)的增效,欢迎报名!

  国际语音顶级会议 Interspeech 2026 将于明年 9 月在澳大利亚悉尼举行。由小米、萨里大学、清华大学、海天瑞声联合发起的第二届 Audio Encoder Capability Challenge(AECC)音频编码器能力挑战赛将同步亮相 Interspeech 2026,目前已正式开放报名。

  当前,音频大语言模型(LALMs)发展迅速,但大多数主流模型在音频前端编码器上选择非常单一,几乎均基于 OpenAI Whisper Encoder。这种对单一技术的依赖不利于模型架构的多样化探索,也限制了 LALMs 整体能力的进一步提升。为应对音频理解能力不断增长的需求,本次挑战赛将聚焦于音频编码器这一核心模块,重点评估其在复杂真实场景下的理解与特征表示能力。

  一、比赛介绍

  1.1 评测方法

  本次挑战赛采用统一的端到端训练和评估框架。参赛者只需提交预训练的编码器模型,下游任务的训练和评估由主办方完成。主办方提供了开源的评估系统 XARES-LLM (https://github.com/xiaomi-research/xares-llm)。该系统基于用户提供的音频编码器自动训练一个典型的 LALM。该系统会自动下载训练数据,训练模型,然后测试各种下游任务,并为每个任务提供分数,如下图所示。

  参赛者并不需要自己运行 XARES-LLM,而只需把音频编码器按照一个简单的接口说明和示例封装,通过邮件发送给主办方即可,大模型的训练和评估由主办方完成。当然,由于 XARES-LLM 是开源的,且只需 GTX4090 即可完成训练和评估,参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能,并和主办方提供的基线系统比较。

  1.2 训练数据

  和大多数比赛不同,本挑战赛不仅重视模型设计和训练,也同样重视数据的收集和利用。主办方不规定具体的训练数据集。参赛者可以使用任何数据训练,包括在网络上抓取的数据,但训练数据必须是公开可访问的,不得使用私有保密数据。参赛的模型既可以基于任何开源的预训练模型参数,也可以从头训练。

  同时,海天瑞声公司为比赛提供了一个补充数据集,供参赛者免费使用。该数据集从八个商用数据集(King-ASR-457、King-ASR-958 等)提取构建而成。其内容涵盖了丰富的日常环境噪声,具体包括书店、健身房、地铁、餐厅等多种室内外场景的背景噪声,以及家庭环境下的不同距离背景噪声。

  此外,数据集还收录了水流、脚步声、户外窗边等特定非语音干扰声,以及地铁车厢在不同时段的运行噪声。啸叫类数据则包含了通话、游戏和直播场景下的纯净啸叫声。

  车辆相关环境噪声也是其重要组成部分,如机械噪声、空调运行声和开窗风噪,还有咖啡馆、医院、市场、步行街等生活场景的实录环境声。报名参赛者可以免费访问该数据集,细节详见 :

  https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html。

  1.3 赛道设置

  我们设置了两个赛道,赛道 A 关注大模型处理传统分类任务、输出分类标签的能力,赛道 B 关注大模型的理解和表达能力。参赛者无需选择赛道。所有提交作品将同时接受两个赛道的评估,两个赛道独立排名。

  ☆ ☆赛道 A :传统分类任务

  ☆ ☆ 赛道 B :理解和表达任务

  二、报名参赛

  2.1 报名和提交方法

  在2026.01.25 11:59 PM AoE 前填写报名链接:https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true 

  参考https://github.com/xiaomi-research/xares-llm/tree/main/example 封装自己的编码器,并通过https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的检查。

  在2026.02.12 11:59 PM AoE 前,把编码器代码和模型文件打成 zip 包,通过邮件发送给主办方。

  在2026.02.25 11:59 PM AoE 前,把技术报告 PDF 文件邮件发送给主办方。技术报告可以同时在 Interspeech 官方提交系统作为会议论文投稿。

  2.2 联系方式

  主办方邮箱:2026interspeech-aecc@dataoceanai.com

  挑战赛官网:https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/ 

海量资讯、精准解读,尽在新浪财经APP

责任编辑:李昂

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10