炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
擴散模型(Diffusion Models, DMs)近年來展現出巨大的潛力,在計算機視覺和自然語言處理等諸多任務中取得了顯著進展,而異常檢測(Anomaly Detection, AD)作爲人工智能領域的關鍵研究任務,在工業製造、金融風控、醫療診斷等衆多實際場景中發揮着重要作用。近期,來自多倫多大學、不列顛哥倫比亞大學、麻省理工學院、悉尼大學、卡迪夫大學和復旦大學等知名機構的研究者合作完成題爲 “Anomaly Detection and Generation with Diffusion Models: A Survey” 的長文綜述,首次聚焦於 DMs 在異常檢測與生成領域的應用。該綜述系統性地梳理了圖像、視頻、時間序列、表格和多模態異常檢測任務的最新進展並從擴散模型視角提供了全面的分類體系,結合生成式 AI 的研究動向展望了未來趨勢和發展機遇,有望引導該領域的研究者和從業者。
二、擴散模型與異常檢測
擴散模型通過正向擴散與反向去噪的馬爾可夫過程實現數據分佈建模。正向過程遵循隨機微分方程,逐步將數據分佈轉化爲高斯噪聲;反向過程通過神經網絡學習去噪映射,漸進式恢復原始數據。其生成機制在捕捉複雜數據分佈的細微差異上具有顯著優勢。與傳統的廣泛用於無監督 AD 任務的 GANs、VAE 和 Transformer 等相比,DMs 在生成樣本的質量和多樣性方面表現出色,在 AD 領域展示出出色潛力。
基於 DMs 的異常檢測通過建模數據分佈的內在結構,將異常定義爲與正常數據模式的顯著偏離。根據異常評分機制不同,可分爲三大核心範式,如圖 3 所示。
基於重構評分的方法通過擴散模型反向去噪過程重構輸入樣本,以重構誤差作爲異常分數。正常樣本因符合學習到的分佈,重構誤差小;異常樣本偏離分佈,重構誤差顯著增大。典型應用如工業質檢中,利用 U-Net 架構的擴散模型通過像素級重構誤差定位異常。
基於密度的評分方法利用擴散模型對數據概率密度的估計能力,將負對數似然作爲異常分數。正常樣本對應高概率密度,負對數似然值低;異常樣本位於低概率區域,分數超過閾值即判定爲異常。
基於分數的評分方法利用數據分佈的梯度信息(分數函數)量化樣本與數據流形的偏離程度。正常樣本位於流形表面,梯度範數小;異常樣本處於低概率區域,梯度範數顯著增大。
三種方法從不同維度刻畫異常:重構評分基於樣本空間距離,密度評分基於概率分佈似然,分數評分基於流形幾何梯度。實際應用中,重構方法對圖像局部異常更敏感,密度方法適合時序數據全局檢測,分數方法在高維非結構化數據中表現更優。
三、擴散模型驅動的異常檢測與生成
3.1 圖像異常檢測
在圖像異常檢測(Image Anomaly Detection, IAD)領域,DMs 面臨兩大核心挑戰:“恆等快捷方式”(Identity Shortcut)問題與高昂的計算成本。前者指模型在重構時傾向於直接複製輸入中的異常區域,從而掩蓋了異常;後者則源於擴散過程固有的多步迭代推理,限制了其實時應用。爲應對這些挑戰,綜述中探討了一系列前沿方法。例如,通過掩碼重構、潛空間特徵編輯或對抗性訓練來打破 “恆等快捷方式”,迫使模型學習正常數據的深層分佈而非簡單複製。同時,爲解決計算效率問題,研究者們提出了模型蒸餾、高效 ODE 求解器、潛空間擴散(Latent Diffusion Models, LDMs)以及模型稀疏化等多種加速策略。這些方法通過減少採樣步數或在更低維的空間中操作,顯著降低了推理時間和資源消耗,爲擴散模型在工業質檢、醫療影像分析等高要求的 IAD 場景中的實際部署鋪平了道路。
圖 4:圖像異常檢測方法示意圖。(a)展示了基礎的基於重構的方法;(b)展示了爲解決 “恆等快捷方式” 問題而設計的條件式或多階段變體方法,旨在提升對異常的敏感度。
3.2 視頻異常檢測
視頻異常檢測(Video Anomaly Detection, VAD)的核心在於處理時序維度和複雜的運動模式,這使其比靜態圖像檢測更具挑戰性。異常可能表現爲反常的動作序列或與既定模式不符的動態變化。因此,有效的 VAD 框架必須能夠對時空依賴性進行建模。綜述指出,先進的擴散模型通過引入光流、運動矢量或集成時空 Transformer 架構,將運動信息顯式地融入到生成過程中。這種設計使模型能夠學習正常事件的時空演化規律,從而敏銳地捕捉到速度、方向或加速度上的異常變化。例如,模型通過對過去幀或運動表徵進行條件化,預測未來的正常幀,並將預測結果與實際觀測進行比較。這種基於運動和時序上下文的建模方式,極大地提升了模型在監控、自動駕駛等動態場景中檢測複雜異常事件的準確性和魯棒性。
圖 5:視頻異常檢測框架示意圖。該框架集成了時空特徵提取與運動建模,通過光流或 Transformer 等技術將運動信息融入擴散模型,以有效識別空間外觀和時間演變中的異常。
3.3 時間序列異常檢測
時間序列異常檢測(Time Series Anomaly Detection, TSAD)面臨的挑戰源於數據的內在時序依賴性、不規則採樣和潛在的長期關聯。綜述歸納了擴散模型在該領域的兩大主流範式:基於重構(reconstruction-based)與基於插補(imputation-based)。基於重構的方法利用擴散模型強大的生成能力來複原輸入的時間序列,那些無法被精確重構、導致較大誤差的數據點或片段被視爲異常。而基於插補的方法則巧妙地將異常檢測任務轉化爲一個缺失值填補問題,模型嘗試填補序列中的部分數據,異常點會因其與上下文的低 “協調性” 而導致插補質量顯著下降,從而被識別出來。爲了有效捕捉時間序列的複雜動態,這些模型通常會集成循環神經網絡(RNNs)或注意力機制(Attention),以增強對長短期依賴關係的建模能力,使其在金融欺詐檢測、設備故障預警等任務中表現出色。
圖 6:時間序列異常檢測(TSAD)框架示意圖。該圖展示了基於擴散模型的兩種主流 TSAD 路徑:(a)基於重構的路徑通過比較原始序列與重構序列的差異來計算異常分數;(b)基於插補的路徑則通過評估模型對缺失值的插補質量來判斷異常。
3.4 表格異常檢測
表格數據因其混合數據類型(如數值型、分類型、序數型)和普遍存在的缺失值,對異常檢測構成了獨特的挑戰。直接應用爲圖像設計的擴散模型往往效果不佳。爲此,該領域的研究重點在於開發專門的預處理技術和模型架構。綜述中提到,擴散模型驅動的表格異常檢測(Tabular Anomaly Detection, TAD)方法通常首先通過專門的嵌入層將異構數據統一到連續的表徵空間。隨後,經過改造的 DMs(如結合 Transformer 架構或高斯混合模型)在這一空間中學習正常數據的聯合分佈。在推理階段,通過計算樣本的重構損失或生成概率來識別異常。針對缺失值問題,一些方法在訓練中引入掩碼機制,使模型學會在存在數據缺失的情況下進行穩健的推理。這些適應性設計使得擴散模型能夠有效處理金融、醫療等領域的複雜表格數據,精確識別其中的欺詐、病變等異常模式。
圖 7:表格異常檢測框架示意圖。該框架展示了處理包含混合數據類型(如數值型、分類型)的表格數據的典型流程。數據首先經過專門的預處理和嵌入模塊,然後輸入到適用於表格數據的擴散模型中,最終通過計算重構損失來識別異常。
3.5 多模態異常檢測
多模態異常檢測(Multimodal Anomaly Detection, MAD)通過融合來自不同數據源(如圖像、文本、傳感器數據)的互補信息,顯著提升了檢測系統的準確性和魯棒性。其核心挑戰在於如何有效對齊和融合異構的模態信息。綜述總結了三種主流的融合策略:早期融合在輸入層即合併特徵;晚期融合在決策層結合各模態的獨立輸出;而動態融合則能根據輸入數據的上下文自適應地調整各模態的權重。協同擴散(Collaborative Diffusion)等先進框架通過構建共享的嵌入空間和動態融合模塊,有效解決了模態對齊和信息不均衡的問題,在工業檢測、智能監控等場景中展現了巨大潛力。
3.6 異常生成
異常生成(Anomaly Generation, AG)的主要動機是解決現實世界中異常樣本稀缺的根本性難題。擴散模型憑藉其卓越的生成能力,可以創造出逼真且多樣的合成異常。該技術以正常數據爲 “種子”,通過引入文本描述、掩碼或在潛空間進行特定操作等條件化引導,精確地控制生成異常的類型、位置和嚴重程度。這些生成的異常數據不僅可以用於擴充訓練集以增強檢測模型的泛化能力,還能作爲 “陪練” 來系統性地評估和提升模型的魯棒性,併爲自監督學習範式提供了寶貴的訓練信號。
四、挑戰與機遇
儘管 DMs 在異常檢測與生成領域取得了一定的進展,但仍面臨諸多挑戰。其一,計算效率。DMs 的訓練和推理過程通常需要較高的計算資源和時間成本,這限制了其在實際場景中的應用,無法滿足工業等應用場景下快速響應需求。其二,模型對複雜場景的適應性。在物理世界中,多模態異構數據往往具有複雜的分佈和噪聲,如何使 DMs 在這些複雜情況下仍能準確地檢測任意可能異常,仍需進一步探索。
展望未來,該領域展現出出色應用前景和研究潛力。第一,優化 DMs 的架構和算法,提高其計算效率,使其能夠在資源受限的環境中運行。開發輕量級的擴散模型,或者採用模型壓縮、加速推理等技術,有望解決計算效率問題。第二,增強 DMs 對複雜場景的理解和適應能力也是關鍵。通過引入多模態信息、改進數據增強技術等方式,使模型能夠更好地處理複雜多變的數據。第三,探索 DMs 與基礎模型以及強化學習等前沿技術的結合,將爲面向現實應用的異常檢測與生成模型帶來新的突破。
五、結語
該綜述系統梳理了 DMs 在異常檢測與生成領域的技術進展,從理論基礎、方法分類到應用場景形成完整研究體系:
技術框架的系統性構建:首次將基於 DMs 的異常檢測方法劃分爲基於重構、基於密度、基於分數三大評分範式,並針對圖像、視頻、時間序列等不同數據模態,闡述模型架構分類和最新進展。
學術研究的前瞻性展望:客觀剖析當前技術瓶頸,包括擴散過程的多步計算開銷、小樣本場景的泛化能力不足、理論解釋的缺失等;展望主要研究趨勢,如與大語言模型融合實現上下文感知檢測、基於元學習的快速領域適應、以及面向實時場景的高效架構設計。
如果您對這篇綜述感興趣,歡迎閱讀和引用論文:
@misc{liu2025anomaly,
title = {Anomaly Detection and Generation with Diffusion Models: A Survey},
author = {Liu, Yang and Liu, Jing and Li, Chengfang and Xi, Rui and Li, Wenchao and Cao, Liang and Wang, Jin and Yang, Laurence T. and Yuan, Junsong and Zhou, Wei},
year = {2025},
primaryclass = {cs.LG},
eprint = {2506.09638},
doi = {10.48550/arXiv.2506.09638},
url = {https://arxiv.org/abs/2506.09638},
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。