
3-1.jpg)
來(lái)自支付寶的運(yùn)維監(jiān)控經(jīng)驗(yàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??編輯:曉通宏志市場(chǎng)部
? ? ? 支付寶私有云中以業(yè)務(wù)為核心的監(jiān)控經(jīng)驗(yàn):
? ? ? 支付寶,除了常規(guī)的運(yùn)維監(jiān)控和應(yīng)用監(jiān)控,還有更多其他的訴求,如業(yè)務(wù)監(jiān)控、合作伙伴監(jiān)控和SOA環(huán)境監(jiān)控。
? ? ? 業(yè)務(wù)分析在支付寶的監(jiān)控體系中起著至關(guān)重要的作用:
? ? ? 實(shí)時(shí)BI——有時(shí)不是為了排查故障,而是為了確認(rèn)沒(méi)有問(wèn)題。
? ? ? 確定故障范圍——不同的業(yè)務(wù)特征,代表了不同的故障影響范圍;不同的影響范圍,應(yīng)急人員有不同的策略。
? ? ? 業(yè)務(wù)與合作伙伴——比如銀行,單個(gè)銀行下跌,可能是銀行的問(wèn)題;所有銀行下跌,可能是支付寶的問(wèn)題。
? ? ? 業(yè)務(wù)與應(yīng)用的關(guān)系——通過(guò)監(jiān)控不同的業(yè)務(wù),可以快速定位故障。
? ? ? 業(yè)務(wù)與業(yè)務(wù)的關(guān)系——雖然沒(méi)有系統(tǒng)間的直接關(guān)系,但業(yè)務(wù)之間確實(shí)有可能會(huì)存在相互的影響。
? ? ? 業(yè)務(wù)與運(yùn)維策略的關(guān)系——例如,確定機(jī)房引流,流量的分配。
? ? ? 業(yè)務(wù)與管控策略的關(guān)系——管控策略有很多,比如分組、降級(jí)、限流和引流,管控策略的制定和業(yè)務(wù)是息息相關(guān)。
? ? ? 很多公司都會(huì)采用在系統(tǒng)中埋點(diǎn)的做法進(jìn)行監(jiān)控,而支付寶則采用了業(yè)務(wù)分析結(jié)合現(xiàn)象分析的做法來(lái)進(jìn)行實(shí)時(shí)故障應(yīng)急處理。埋點(diǎn)需要對(duì)所有服務(wù)器做埋點(diǎn)檢查,而故障的原因是無(wú)窮的,往往可以從現(xiàn)象癥狀上來(lái)判斷故障的原因。
? ? ? 此外,還有支付寶內(nèi)部基于日志的監(jiān)控解決方案。