探針式BOSS業(yè)務監(jiān)控系統實戰(zhàn)分析
唐濤 李靜 朱曄 2010/03/03
—.探針式BOSS業(yè)務監(jiān)控系統實戰(zhàn)分析
圖:探針式BOSS業(yè)務監(jiān)控系統架構圖

圖: 采集層探針
告警管控層: 本層提供基于預警模型的預警管理和追根溯源的告警定位處理。
預警模型是基于對系統中超過二年的業(yè)務全方位數據基于運維經驗的深入挖掘分析所得。當預警模型條件都滿足的情況下,通過工單系統發(fā)出相關的預警工單,使運維人員及時處理,避免實際的業(yè)務中斷。
告警定位處理提供了基于邏輯拓撲的全路徑故障資源定位和基于業(yè)務操作耗時細分的故障環(huán)節(jié)定位功能。通過對邏輯拓撲中Web、中間件和數據庫層的全路徑業(yè)務模擬,能將故障具體到集群中的某個服務器和某個應用端口;
通過包括網絡耗時和后臺耗時等的業(yè)務操作耗時細分,究竟是網絡問題還是后臺問題也就能清晰地展現在運維人員面前。
探針式業(yè)務監(jiān)控管理系統顛覆了傳統監(jiān)控系統的的監(jiān)控視角,將原來自下而上評估業(yè)務狀態(tài)和影響,變成了以結構化模型框架為指導,以對體系化的CI/KPI指標進行監(jiān)控來了解業(yè)務狀態(tài)、分析預警業(yè)務風險、定位業(yè)務故障。
分析展示層: 以三維立體業(yè)務全景視圖的方式,向運維人員直觀方便地展現當前業(yè)務運營狀況,可一站視查看業(yè)務、邏輯、物理三個層面的運營特征。
在每一層的具體業(yè)務、設備的展示上,又把性能數據、告警數據和配置信息同時展現,實現了真正的業(yè)務三維立體展現。豐富的三維立體業(yè)務監(jiān)控視圖能夠更為有機地監(jiān)控管理業(yè)務及系統平臺數據,大幅度提升運維管控效率的同時,極大地方便各類人員查看操作。探入式BOSS運營監(jiān)控實現了一站式的BOSS系統監(jiān)、管、控。
豐富的業(yè)務三維立體展現和鉆取方式的層層深入分析,降低了運維人員分析業(yè)務與支撐之間的關系難度,從而不斷改進系統支撐短板,提高公司總體的業(yè)務支撐服務水平。
探針式BOSS
實際應用效果


圖:業(yè)務三維立體分析展示
經過一段時間的系統運行及不斷改善,探針式BOSS監(jiān)控系統對中國移動浙江公司業(yè)務質量的提高和運營能力的改善起到了相當大的作用:
1. 提供有效的業(yè)務問題預警
探針式BOSS業(yè)務監(jiān)控系統平臺正式運行后,平均每月針對業(yè)務效率的有效預警達29次,預警有效率和覆蓋率均達到96%以上,相關人員據此進行主動式運維服務,使得月均故障數下降了34%。而且,在處理效率上,根據分析系統正式運行以來的告警數據,發(fā)現趨勢預警時間點比原有的平臺級告警和客服報障平均提前42分鐘。
2. 故障處理時長明顯縮短

計算機世界報
| 某移動公司NG-BOSS虛擬化云計算平臺實踐解析 2010-02-25 |
| 全業(yè)務運營時代 電信服務質量如何管? 2010-02-09 |
| 新一代業(yè)務交付平臺架構解析 2010-01-04 |
| 3G計費系統建設要面向未來 2009-12-24 |
| 下一代無線網絡對系統OSS的要求 2009-12-08 |