翻譯界的ChatGPT時刻,Meta發布新模型,幾段示例學會冷門新語言

新智元
2025/11/12

在7000多種人類語言中,只有少數被現代語音技術聽見,如今這種不平等或將被打破。Meta發布的Omnilingual ASR系統能識別1600多種語言,並可通過少量示例快速學會新語言。以開源與社區共創為核心,這項技術讓每一種聲音都有機會登上AI的舞台。

你或許很難想象,在世界上7000多種活躍語言中,只有幾百種享受過現代語音技術的「寵愛」。

絕大多數人類語言的使用者——從非洲部落的土著、亞馬遜雨林的族羣,到鄉野小鎮仍講着古老方言的老人—— 一直生活在數字時代的旁白之外。

語音助手、自動字幕、實時翻譯,這些AI帶來的便利彷彿只為少數「主流」語言而生,其餘的語言社區仍被擋在技術大門之外。

這種數字鴻溝如今迎來了破局者。

Meta人工智能研究團隊日前發布了Omnilingual ASR系統,一個可自動識別轉錄1600多種語言語音的AI模型族,讓幾乎所有人類語言都能被機器「聽懂」。

這套系統以開源方式共享給全世界,並能由社區親手拓展新的語言,讓每一種聲音都有機會登上AI的舞台。

1600種語言,只是開始

Meta此次推出的Omnilingual ASR創造了語音識別覆蓋語言數量的新紀錄,支持超過1600種語言,其中包括500種此前從未被任何AI系統轉錄過的語言。

相比之下,OpenAI開源的Whisper模型只支持99種語言,而Omnilingual ASR幾乎將這一數字提升了一個數量級。

對於全球衆多使用小語種的人來說,這無疑是一次「數字雪恥」:他們的母語第一次有了被AI流利聽懂的可能性。

這套系統的識別性能在很多語種上已達到領先水平。

據Meta提供的數據,在所測試的1600多種語言中,有78%的語種其識別錯誤率(CER)低於10%,若以10小時以上語音數據訓練的語種來看,這一比例更是達到95%。

即使對於訓練語料極其稀少的低資源語言,仍有36%實現了CER低於10%的效果。

這些數字意味着,Omnilingual ASR不僅覆蓋面廣,而且在大多數語言上都能給出實用且高質量的轉錄結果。

然而,1600種語言還不是Omnilingual ASR的終點。

更大的意義在於,它打破了以往ASR模型支持語言範圍固定死板的侷限,讓語言覆蓋從「定量」走向「可擴展」。

Omnilingual ASR借鑑了大語言模型(LLM)的思路,引入了零樣本的「上下文學習」機制。

這意味着即便某種語言最初不在支持列表中,用戶也可以通過提供幾段該語言的音頻和對應文本作為示例,在推理過程中即時讓模型學會一種新語言。

無需耗費數月收集大型語料、無需專業深度學習訓練,只需簡單的少樣本學習(few-shot)即可學會新語言。

憑藉這種革新性的範式,Omnilingual ASR的潛在語言覆蓋能力驟然擴張。

官方表示,理論上該系統可以擴展到超過5400種語言,幾乎涵蓋所有有文字記錄的人類語言!

無論多冷門的口語,只要有對應的書寫體系和幾句示例,它就有機會被Omnilingual ASR捕捉記錄。

在AI語音識別領域,這是從靜態封閉走向動態自適應的範式轉變——模型不再束縛於訓練時預設的語言清單,而成為一個靈活開放的框架,鼓勵各地社區自行加入新語言。

對於那些長期缺席於技術版圖的族羣來說,這無異於掌握了一把可以隨時親手「解鎖」新語言的大門鑰匙。

開源與社區,打破語言鴻溝

Omnilingual ASR的另一個顯著特點在於其開源和社區驅動的屬性。

Meta選擇將這一龐大的多語種ASR系統在GitHub上完全開源,採用Apache 2.0許可發布模型和代碼。

無論是研究人員、開發者還是企業機構,都可以免費使用、修改、商用這套模型,而無需擔心繁瑣的授權限制。

對比此前一些AI模型帶有附加條款的「半開源」模式,Omnilingual ASR的開放姿態可謂十分坦蕩,為技術民主化樹立了榜樣。

為了讓各語言社區都能受益,Meta不僅開放了模型,還同步釋放了一個巨大的多語言語音數據集——Omnilingual ASR語料庫。

該語料庫包含了350種語料稀缺的語言的轉錄語音數據,覆蓋了許多以前在數字世界中「失聲」的語言。

所有數據以CC-BY協議開放提供。

開發者和學者可以利用這些寶貴資源,去訓練改進適合本地需求的語音識別模型。

這一舉措無疑將幫助那些缺乏大規模標註語料的語言跨越數據門檻,讓「小語言」也有大作為的機會。

Omnilingual ASR能夠囊括前所未有的語言廣度,離不開全球合作的支撐。

在開發過程中,Meta與各地的語言組織和社區攜手收集了大量語音樣本。

他們與Mozilla基金會的Common Voice項目、非洲的Lanfrica/NaijaVoices等機構合作,從偏遠地區招募母語人士錄製語音。

為確保數據多樣且貼近生活,這些錄音往往採用開放式提問,讓說話人自由表達日常想法。

所有參與者都獲得了合理報酬,並遵循文化敏感性的指導進行採集。

這種社區共創的模式賦予了Omnilingual ASR深厚的語言學知識和文化理解,也彰顯了項目的人文關懷:技術開發並沒有也不應該居高臨下地「拯救」小語種,而是與當地社區合作,讓他們自己成為語言數字化的主角。

技術規格上,Meta提供了一系列不同規模的模型以適配多樣化的應用場景:從參數量約3億的輕量級模型(適合手機等低功耗設備)到高達70億參數的強力模型(追求極致準確率)一應俱全。

模型架構採用自監督預訓練的wav2vec 2.0語音編碼器(拓展到70億參數規模)提取通用音頻特徵,並結合兩種解碼器策略:一種是傳統的CTC解碼,另一種則是融入Transformer的大模型文本解碼器,後者賦予了模型強大的上下文學習能力。

龐大的模型需要海量數據來支撐——Omnilingual ASR訓練使用了超過430萬小時的語音音頻,涵蓋1239種語言的素材。

這是有史以來最大規模、多樣性最高的語音訓練語料之一。如此大體量的數據加上社區貢獻的長尾語言語料,確保了模型對各種語言都學到穩健的語音表示,甚至對完全沒見過的語言也有良好的泛化基礎。

正如研究論文所指出的,「沒有任何模型能預先涵蓋世界上所有語言,但Omnilingual ASR讓社區能夠用自己的數據持續拓展這份清單」。

這標誌着語音AI從此具備了自我生長的生命力,能夠與人類語言的豐富多樣性共同進化。

當技術放下傲慢,以開源姿態擁抱多元,當每一種語言的聲音都有機會被聆聽和記錄,當沒有任何一種語言被數字世界遺忘,我們離真正消弭語言鴻溝又近了一大步,人類的連接才能真正開始消除邊界。

參考資料:

https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10