2025年12月17日,Meta發佈了首個統一的多模態音頻分離模型SAM Audio,可通過文本、視覺或時間段提示從複雜音頻中分離特定聲音。該模型基於感知編碼器視聽(PE-AV)技術,支持點擊視頻中的物體、輸入文本指令或標記時間範圍來提取目標音頻,如點擊吉他分離其演奏聲,或過濾播客中的狗叫噪音。Meta同時推出評估基準SAM Audio-Bench與自動評測模型SAM Audio Judge,並已...
網頁鏈接2025年12月17日,Meta發佈了首個統一的多模態音頻分離模型SAM Audio,可通過文本、視覺或時間段提示從複雜音頻中分離特定聲音。該模型基於感知編碼器視聽(PE-AV)技術,支持點擊視頻中的物體、輸入文本指令或標記時間範圍來提取目標音頻,如點擊吉他分離其演奏聲,或過濾播客中的狗叫噪音。Meta同時推出評估基準SAM Audio-Bench與自動評測模型SAM Audio Judge,並已...
網頁鏈接免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。