
摘要:2025年7月23日,由中國通信標準化協(xié)會主辦的 “2025可信云大會” 在京舉行,《運維智能體(SRE AGENT)能力要求》標準正式發(fā)布,杭州乘云數(shù)字作為運維智能體及可觀測領(lǐng)域領(lǐng)導(dǎo)者,重點參與了本次報告的編寫。

報告介紹
本標準規(guī)范了在開展運維智能體建設(shè)或度量時,如何指導(dǎo)運維場景應(yīng)用、協(xié)同能力構(gòu)建、智能體能力建設(shè)和基智能體底座建設(shè)。


圖1 運維智能體(SRE Agent)技術(shù)分級能力要求框架圖
- 運維場景層(頂層)?
覆蓋智能體服務(wù)的核心業(yè)務(wù)場景,包含:
? ?流程管理??:自動化運維流程執(zhí)行
? ?變更管理??:系統(tǒng)變更的智能化控制
? ?故障管理??:異常檢測、根因定位與自愈
? ?風(fēng)險管理??:預(yù)判性監(jiān)控與容錯控制
? ?運維管理??:資源調(diào)度與配置優(yōu)化
定位:直接對接企業(yè)實際運維需求,定義智能體價值出口。 - 協(xié)同能力層(承上啟下)?
支撐智能體在復(fù)雜環(huán)境中的協(xié)作能力:
? ?多智能體協(xié)同??:集群任務(wù)分配與聯(lián)動作業(yè)
? ?跨系統(tǒng)協(xié)同??:對接CMDB、監(jiān)控系統(tǒng)等第三方平臺
? ?智能體安全??:數(shù)據(jù)加密、權(quán)限控制與行為審計
定位:破除系統(tǒng)孤島,確保人-機-系統(tǒng)安全交互。 - 智能體層(核心技術(shù)層,橫向三模塊)?
? ?感知能力??:
- ?運維數(shù)據(jù)??(指標/日志/鏈路)
- ?環(huán)境數(shù)據(jù)??(硬件狀態(tài)/網(wǎng)絡(luò)拓撲)
- ?交互數(shù)據(jù)??(用戶指令/反饋)
(注:多源數(shù)據(jù)融合感知)
? ?控制能力??:
- ?信息理解??:數(shù)據(jù)語義解析與特征提取
- ?記憶能力??:知識圖譜構(gòu)建與經(jīng)驗存儲
- ?計劃能力??:任務(wù)拆解與決策路徑生成
? ?行動能力??:
- 自動執(zhí)行修復(fù)、擴縮容等物理操作
- 支持工單生成、告警通知等人機協(xié)同 - 智能體底座(基礎(chǔ)設(shè)施)?
? ?模型接入??:兼容AI大模型與專業(yè)算法引擎
? ?軟件質(zhì)量??:高可用架構(gòu)與性能保障
? ?自維護??:智能體自監(jiān)控、自升級與故障隔離
- 統(tǒng)一規(guī)則:? 為產(chǎn)品開發(fā)與評估提供清晰依據(jù),規(guī)范市場秩序。
- 賦能企業(yè):? 指導(dǎo)企業(yè)高效選型和建設(shè)SRE Agent能力,提升運維智能化水平。
- 引領(lǐng)發(fā)展:? 樹立行業(yè)技術(shù)標桿,加速智能運維技術(shù)成熟與應(yīng)用創(chuàng)新。
篇章預(yù)覽:
5.3.2故障定位 描述:故障定位是指故障發(fā)生以后能夠采取多種手段找到問題原因。一般故障定位能力分為現(xiàn)象定位、對象定位、原因定位三種。智能體應(yīng)該與企業(yè)當前故障定位能力結(jié)合,在故障處理過程中通過大模型能力快速判斷、整合,從而提升故障定位效率。 1級:應(yīng)具備故障現(xiàn)象定位能力,通過現(xiàn)象關(guān)聯(lián)分析,實現(xiàn)故障初步定位及影響范圍識別。 2級: a) 智能體應(yīng)具備故障對象定位能力。以及部分故障原因定位能力。 b) 智能體應(yīng)具備結(jié)合多源數(shù)據(jù)進行多維度根因分析的能力。 3級:智能體應(yīng)具備精準分析故障原因與趨勢,輸出處置預(yù)測報告的能力 |
乘云數(shù)字運維智能體介紹
憑借在領(lǐng)域的技術(shù)創(chuàng)新與行業(yè)領(lǐng)跑實力,乘云數(shù)字被評選為 “國家高新技術(shù)企業(yè)”、“浙江省專精特新企業(yè)”、“浙江省科技型企業(yè)”,并連續(xù)獲得多輪融資。
乘云數(shù)字運維智能體引擎,結(jié)合預(yù)測性、因果關(guān)系和生成式 AI,能夠?qū)崿F(xiàn)分鐘級的根因定位,利用大模型生成精準的處建建議,并可在問題對客戶造成影響之前進行預(yù)測。

預(yù)測AI :融合機器學(xué)習(xí)與多模態(tài)數(shù)據(jù)分析,實時處理指標、日志、追蹤等運維數(shù)據(jù),構(gòu)建動態(tài)基線,提前預(yù)警潛在故障(如資源瓶頸、性能衰退),并定位根因、提供修復(fù)建議。通過仿真推演與智能決策,優(yōu)化資源規(guī)劃與發(fā)布策略,降低故障率,推動運維從“被動響應(yīng)”邁向“主動預(yù)防”的價值驅(qū)動模式。
因果AI :分析指標、日志、追蹤等數(shù)據(jù)間的因果關(guān)系,精準定位故障根因(如配置錯誤、依賴故障),區(qū)分直接與間接誘因,減少誤報。通過回溯故障傳播路徑、量化影響并推薦修復(fù)方案,助力運維從“經(jīng)驗猜測”轉(zhuǎn)向“因果可解釋”的精準決策,提升故障處理效率與系統(tǒng)穩(wěn)定性。
生成式AI :結(jié)合大語言模型(LLM)與知識圖譜,實現(xiàn)基于自然語言的查詢分析、報告生成、數(shù)據(jù)可視化等能力。通過沉淀歷史經(jīng)驗和專家知識,推動運維自動化與知識高效復(fù)用,提升故障處理與系統(tǒng)優(yōu)化效率。
具體實現(xiàn)效果可參考閱讀以下內(nèi)容:
databuff與dynatrace 的智能體故障定位能力對比 https://databuff.com/resourceDetail/blog101
評論