雷軍:第二屆音頻編碼器能力挑戰賽明年9月將同步亮相Interspeech 2026,已開放報名

新浪科技
12/15

  12月15日,小米公司創始人、董事長、首席執行官雷軍發文宣佈,小米聯合薩里大學、清華大學、海天瑞聲聯合發起第二屆音頻編碼器能力挑戰賽,將於明年9月同步亮相國際語音頂級會議 Interspeech 2026,目前已正式開放報名。

  雷軍表示,本次挑戰賽旨在推動音頻編碼器對音頻大語言模型(LALM)的增效,歡迎報名!

  國際語音頂級會議 Interspeech 2026 將於明年 9 月在澳大利亞悉尼舉行。由小米、薩里大學、清華大學、海天瑞聲聯合發起的第二屆 Audio Encoder Capability Challenge(AECC)音頻編碼器能力挑戰賽將同步亮相 Interspeech 2026,目前已正式開放報名。

  當前,音頻大語言模型(LALMs)發展迅速,但大多數主流模型在音頻前端編碼器上選擇非常單一,幾乎均基於 OpenAI Whisper Encoder。這種對單一技術的依賴不利於模型架構的多樣化探索,也限制了 LALMs 整體能力的進一步提升。為應對音頻理解能力不斷增長的需求,本次挑戰賽將聚焦於音頻編碼器這一核心模塊,重點評估其在複雜真實場景下的理解與特徵表示能力。

  一、比賽介紹

  1.1 評測方法

  本次挑戰賽採用統一的端到端訓練和評估框架。參賽者只需提交預訓練的編碼器模型,下游任務的訓練和評估由主辦方完成。主辦方提供了開源的評估系統 XARES-LLM (https://github.com/xiaomi-research/xares-llm)。該系統基於用戶提供的音頻編碼器自動訓練一個典型的 LALM。該系統會自動下載訓練數據,訓練模型,然後測試各種下游任務,並為每個任務提供分數,如下圖所示。

  參賽者並不需要自己運行 XARES-LLM,而只需把音頻編碼器按照一個簡單的接口說明和示例封裝,通過郵件發送給主辦方即可,大模型的訓練和評估由主辦方完成。當然,由於 XARES-LLM 是開源的,且只需 GTX4090 即可完成訓練和評估,參賽者也可以自行使用該系統訓練大模型、評估待提交的編碼器的性能,並和主辦方提供的基線系統比較。

  1.2 訓練數據

  和大多數比賽不同,本挑戰賽不僅重視模型設計和訓練,也同樣重視數據的收集和利用。主辦方不規定具體的訓練數據集。參賽者可以使用任何數據訓練,包括在網絡上抓取的數據,但訓練數據必須是公開可訪問的,不得使用私有保密數據。參賽的模型既可以基於任何開源的預訓練模型參數,也可以從頭訓練。

  同時,海天瑞聲公司為比賽提供了一個補充數據集,供參賽者免費使用。該數據集從八個商用數據集(King-ASR-457、King-ASR-958 等)提取構建而成。其內容涵蓋了豐富的日常環境噪聲,具體包括書店、健身房、地鐵、餐廳等多種室內外場景的背景噪聲,以及家庭環境下的不同距離背景噪聲。

  此外,數據集還收錄了水流、腳步聲、戶外窗邊等特定非語音干擾聲,以及地鐵車廂在不同時段的運行噪聲。嘯叫類數據則包含了通話、遊戲和直播場景下的純淨嘯叫聲。

  車輛相關環境噪聲也是其重要組成部分,如機械噪聲、空調運行聲和開窗風噪,還有咖啡館、醫院、市場、步行街等生活場景的實錄環境聲。報名參賽者可以免費訪問該數據集,細節詳見 :

  https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html。

  1.3 賽道設定

  我們設定了兩個賽道,賽道 A 關注大模型處理傳統分類任務、輸出分類標籤的能力,賽道 B 關注大模型的理解和表達能力。參賽者無需選擇賽道。所有提交作品將同時接受兩個賽道的評估,兩個賽道獨立排名。

  ☆ ☆賽道 A :傳統分類任務

  ☆ ☆ 賽道 B :理解和表達任務

  二、報名參賽

  2.1 報名和提交方法

  在2026.01.25 11:59 PM AoE 前填寫報名鏈接:https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true 

  參考https://github.com/xiaomi-research/xares-llm/tree/main/example 封裝自己的編碼器,並通過https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的檢查。

  在2026.02.12 11:59 PM AoE 前,把編碼器代碼和模型文件打成 zip 包,通過郵件發送給主辦方。

  在2026.02.25 11:59 PM AoE 前,把技術報告 PDF 文件郵件發送給主辦方。技術報告可以同時在 Interspeech 官方提交系統作為會議論文投稿。

  2.2 聯繫方式

  主辦方郵箱:2026interspeech-aecc@dataoceanai.com

  挑戰賽官網:https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/ 

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:李昂

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10