Facebook再次顛覆了數(shù)據(jù)中心基礎(chǔ)設(shè)施管理的傳統(tǒng)理念,將過去相對獨立的機房設(shè)施和服務(wù)器硬件數(shù)據(jù)納入統(tǒng)一的管理軟件。
還記得2012年6月底的“閏秒事件”嗎?當時網(wǎng)絡(luò)上關(guān)于Java、Hadoop和Apache Cassandra數(shù)據(jù)庫等技術(shù)的閏秒問題吐槽聲不斷。包括Reddit、Foursquare等大型網(wǎng)站紛紛中招,F(xiàn)acebook服務(wù)器CPU使用率瞬間升至100%,耗電量瞬間飆升,導致Facebook位于弗吉尼亞數(shù)據(jù)中心的斷路器發(fā)生故障,結(jié)果300個機架宕機。
一個不起眼的閏秒問題給互聯(lián)網(wǎng)帶來的實質(zhì)性沖擊遠遠超過Y2K問題!
而對于Facebook的工程師來說,從閏秒問題能吸取的最大教訓就是考慮開發(fā)出能整合第三方建筑管理軟件和Facebook自主開發(fā)的服務(wù)器性能監(jiān)測工具的新型管理軟件。
Facebook網(wǎng)站運營副總裁Tom Furlong最近在接受媒體采訪的時候透露,F(xiàn)acebook最新的數(shù)據(jù)中心管理軟件能夠?qū)囟取穸鹊葢敉庑畔⑴c整棟建筑的能耗,以及CPU存儲和內(nèi)存方面的數(shù)據(jù)進行綜合分析和管理。
過去幾個月中,F(xiàn)acebook推出了新版本的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)項目,以及一個全新的集群規(guī)劃系統(tǒng)用于將所有數(shù)據(jù)都可視化。Facebook計劃今年內(nèi)更大范圍地推廣其DCIM項目。
Facebook新推的數(shù)據(jù)中心管理軟件可以減少工程師設(shè)計數(shù)據(jù)中心性能優(yōu)化方案的時間。“從過去的12小時縮短到半個小時”Furlong說道。
與此同時,一體化的數(shù)據(jù)中心管理軟件還能幫助Facebook進一步提高其數(shù)據(jù)中心的能耗效率,同時減少了新建數(shù)據(jù)中心的需求。
Furlong預計Facebook將在明年1月的開放計算峰會上討論一體化數(shù)據(jù)中心管理軟件,但還不確定是否會像Open Compute Project的數(shù)據(jù)中心硬件設(shè)計一樣向公眾公開。目前的一體化管理軟件中集成了很多Facebook自有的監(jiān)控工具,而這些是Facebook所不愿意公開的。