專治智能體盲跑！微軟發佈AI Agent 5大可觀測性，打通任督二脈

今天凌晨，微軟在官網發佈了AI Agent 5大可觀測性最佳實踐，以幫助開發者深度解決智能體盲跑、自動化流程不可控等難題。

智能體可觀測性的主要好處包括：在開發早期檢測並解決問題；驗證智能體是否符合質量、安全和合規標準；優化生產中的性能和用戶體驗；維護智能體的信任和問責制等。

同時還展示了5個應用案例，讓大家更直觀地瞭解這項技術。

什麼是智能體可觀測性

簡單來説，智能體可觀測性就是對智能體從基礎開發、測試、部署到後期維護運營全生命周的工作原理、決策、結果進行深度監測，幫助它們糾正各種錯誤實現更強、安全的自動化業務流程。主要有以下好處：

持續監控：實時跟蹤智能體行為、決策和互動，以發現異常、意外行為或性能漂移。例如，企業客服AI智能體，正常情況下會優先回復未讀消息，但監控時發現它突然頻繁重複發送相同內容，或響應延遲從2秒飆升到10秒，系統會立即預警，提醒開發者排查問題。

追蹤：捕獲詳細的執行流程，包括智能體如何推理任務、選擇工具以及與其他智能體或服務協作。例如，電商訂單處理AI智能體，用戶下單後它需要調用庫存系統、支付系統和物流系統。通過追蹤就能看到，它先自動檢查庫存→調用支付接口→成功後通知物流，若訂單失敗，也能精準定位是某一步工具調用出錯。

日誌記錄：記錄智能體決策、工具調用和內部狀態變化，以支持智能體式AI工作流程中的調試和行為分析。

例如：智能辦公AI智能體，幫用戶安排會議時，日誌會記下10:00接收到“約週三3點會議”需求→調用日曆工具查詢參會人空閒時間→調整建議週三4點→最終用戶確認。後續如果用戶反饋沒約上，可通過日誌回看每一步操作找問題。

評估：系統性地評估智能體輸出的質量、安全、合規性以及與用戶意圖的一致性，使用自動化和人工參與的方法。

例如，金融諮詢AI智能體，用戶問“如何規避股票風險”，自動化評估會檢查它是否推薦了合規投資策略，人工再補充評估：回答是否貼合用戶風險規避的核心需求，有沒有遺漏關鍵提醒。

治理：執行政策和標準，以確保智能體以符合倫理、安全和組織及監管要求的方式運行。例如，教育領域AI智能體，根據治理規則，它必須過濾暴力教學方法歧視性內容，若有用戶問“怎麼懲罰不聽話的學生”，智能體會拒絕回答並引導正確教育方式，避免違反教育行業倫理和監管要求。

微軟提供智能體可觀測性解決方案

微軟的Azure AI Foundry可觀測性是一個統一的解決方案，用於在 Azure AI Foundry 中端到端地評估、監控、追蹤和治理智能體的質量、性能和安全性。所有這些都融入到你的智能體開發循環中。

從模型選擇到實時調試，Foundry 可觀測性功能使團隊能夠自信且快速地推出生產級 AI。

憑藉內置的 Agents Playground 評估、Azure AI 紅隊智能體和 Azure Monitor 集成等功能，Foundry 可觀測性將評估和安全性融入智能體生命週期的每一步。團隊可以追蹤每個智能體流程並獲取完整的執行上下文，模擬對抗性場景，並使用可定製的儀錶板監控實時流量。

無縫的 CI/CD 集成使得在每次提交時都能進行持續評估，而與 Microsoft Purview、Credo AI 和 Saidot 集成的治理支持有助於與歐盟 AI 法案等監管框架保持一致，使大規模構建負責任的、生產級 AI 更加容易。

深度瞭解：https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/observability

5大智能體可觀測性實踐

1、利用基準驅動的排行榜選擇合適的模型

每個智能體都需要一個模型，選擇合適的模型是智能體成功的基礎。在規劃你的 AI 智能體時，你需要決定哪種模型最適合你的用例，就安全性、質量和成本而言。

你可以通過在自己的數據上評估模型，或者使用 Azure AI Foundry的模型排行榜來比較基礎模型，這些模型通過質量、成本和性能，由行業基準支持進行開箱即用的比較。

藉助 Foundry 模型排行榜，你可以找到在各種選擇標準和場景中的模型領導者，可視化標準之間的權衡，並深入查看詳細指標，從而做出自信、數據驅動的決策。

安永全球微軟聯盟聯合創新負責人、董事總經理-Mark Luquire表示，Azure AI Foundry 的模型排行榜讓我們有信心將客戶解決方案從實驗擴展到部署。並排比較模型幫助客戶選擇最適合的模型自信地平衡性能、安全性和成本。

2、在開發和生產中持續評估智能體

智能體是強大的生產力助手。它們可以規劃、做決策並執行行動。智能體通常首先通過對話推理用戶意圖，選擇正確的工具來調用並滿足用戶請求，並根據其指令完成各種任務。在部署智能體之前，評估其行為和性能至關重要。

Azure AI Foundry 通過支持開箱即用的幾種智能體評估器，使智能體評估變得更加容易，包括意圖解析，智能體識別和解決用戶意圖的準確性；任務遵循，智能體完成已識別任務的情況；工具調用準確性，智能體選擇和使用工具的有效性以及響應完整性，智能體的響應是否包含所有必要信息。

除了智能體評估器之外，Azure AI Foundry 還提供了一整套評估器，用於更廣泛地評估 AI 的質量、風險和安全性。這些包括質量維度，如相關性、連貫性和流暢性，以及全面的風險和安全性檢查，評估代碼漏洞、暴力、自殘、性內容、仇恨、不公平性、間接攻擊以及受保護材料的使用。

Azure AI Foundry Agents Playground 將這些評估和追蹤工具整合到一個地方，讓你能夠高效地測試、調試和改進智能體式 AI。

Hughes Network Systems 人工智能總監Amarender Singh表示，Azure AI Foundry 中的穩健評估工具幫助我們的開發人員持續評估我們AI 模型的性能和準確性，包括達到連貫性、流暢性和有根據的標準。

3、將評估集成到你的 CI/CD 流水線中

自動化評估應該是你的 CI/CD 流水線的一部分，以便在發佈之前對每個代碼更改進行質量和安全測試。這種方法有助於團隊儘早發現迴歸，並有助於確保智能體在演變過程中保持可靠。

Azure AI Foundry 使用 GitHub Actions 和 Azure DevOps 擴展與你的 CI/CD 工作流程集成，使你能夠在每次提交時自動評估智能體，使用內置的質量、性能和安全性指標比較版本，並利用置信區間和顯著性檢驗來支持決策——幫助確保你的智能體的每個迭代都已準備好投入生產。

Veeam高級軟件工程師Justin Layne Hofer表示，我們已將 Azure AI Foundry 評估直接集成到我們的 GitHub Actions 工作流程中，因此我們 AI 智能體的每次代碼更改在部署之前都會自動進行測試。這種設置幫助我們快速發現迴歸，並在我們迭代模型和功能時保持高質量。

4、在生產之前使用 AI 紅隊測試掃描漏洞

安全性和安全性是不容妥協的。在部署之前，通過模擬對抗性攻擊主動測試智能體的安全性和安全風險。紅隊測試有助於發現可能在現實場景中被利用的漏洞，增強智能體的健壯性。

Azure AI Foundry 的 AI 紅隊智能體自動化對抗性測試，測量風險並生成準備情況報告。它使團隊能夠模擬攻擊並驗證單個智能體響應和複雜工作流的生產準備情況。

埃森哲生成式AI首席架構師兼高級經理Nayanjyoti Paul表示，埃森哲已經在測試微軟 AI 紅隊智能體，該智能體模擬對抗性提示並主動檢測模型和應用的風險態勢。

這個工具將有助於驗證不僅單個智能體響應，還包括完整的多智能體工作流，其中級聯邏輯可能會因單一對抗性用戶而產生意外行為。紅隊測試讓我們能夠在這些情況進入生產之前模擬最壞的情況。這改變了遊戲規則。

5、使用追蹤、評估和警報在生產中監控智能體

部署後的持續監控對於實時發現問題是必不可少的，包括性能漂移或迴歸。使用評估、追蹤和警報有助於維護智能體在其整個生命週期內的可靠性和合規性。

Azure AI Foundry 可觀測性通過由 Azure Monitor Application Insights 和 Azure Workbooks 提供支持的統一儀錶板，實現持續的智能體式 AI 監控。

主要提供了對生產中智能體行為和性能的實時可見性，包括追蹤、評估和警報。它使團隊能夠追蹤每個智能體流程並獲取完整的執行上下文，監控實時流量，識別異常行為，並設置警報以自動通知團隊潛在問題。

Hughes Network Systems人工智能總監Amarender Singh表示，我們使用 Azure AI Foundry 可觀測性來監控我們的生產智能體。它使我們能夠追蹤每個智能體流程並獲取完整的執行上下文，監控實時流量，識別異常行為，並設置警報以自動通知團隊潛在問題。這種可見性有助於我們快速響應並解決任何問題，確保我們的智能體始終可靠且安全。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

專治智能體盲跑！微軟發佈AI Agent 5大可觀測性，打通任督二脈

熱議股票