中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

 首頁 > 新聞 > 國內(nèi) >

醫(yī)療大數(shù)據(jù)專家:淺談醫(yī)學(xué)大數(shù)據(jù)

2015-03-26 10:06:29   作者:   來源:36氪   評論:0  點(diǎn)擊:


  圖六

  圖五和圖六都顯示了最流行的平臺和數(shù)據(jù)處理方式為開源免費(fèi)的 Hadoop 和 MapReduce。伴隨著他們的潛在成長和承諾程度,可以預(yù)見,Hadoop 和 MapReduce 正在并會繼續(xù)推動和促進(jìn)大數(shù)據(jù)的處理和應(yīng)用。

  在此,我們簡單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數(shù)據(jù)處理框架。它可以提供對儲存在多個硬件設(shè)備上的數(shù)據(jù)進(jìn)行高吞吐率的讀寫。更重要的是,它對大數(shù)據(jù)具有高容錯性 和對并行應(yīng)用程序的高可用性。Hadoop 框架結(jié)構(gòu)由若干名字節(jié)點(diǎn)(NameNode)和數(shù)據(jù)節(jié)點(diǎn)(DataNode)組成。一份數(shù)以萬計(jì),百萬計(jì)的大數(shù)據(jù)文件會被分割成更小的文件信息塊儲存在多個數(shù)據(jù)節(jié)點(diǎn)里,可以是任何計(jì)算機(jī)硬件設(shè)備。

  有關(guān)這些文件的數(shù)據(jù)屬性資料信息稱作 metadata 則被存儲在名字節(jié)點(diǎn)里(NameNode)。 NameNode 主要管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作記錄。Hadoop 的框架結(jié)構(gòu)如圖七:

  圖七

  當(dāng)訪問和操作數(shù)據(jù)文件時,客戶端會聯(lián)系名字節(jié)點(diǎn)提取文件信息塊的屬性信息比如位置,文件名等。然后根據(jù)這些屬性信息,客戶端直接從相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)同時讀取數(shù)據(jù)塊。Hadoop 本身具有冗余和復(fù)制功能,保證在單個硬件儲存設(shè)備出現(xiàn)故障時數(shù)據(jù)仍舊能被恢復(fù)而沒有任何損失,比如每個數(shù)據(jù)節(jié)點(diǎn)默認(rèn)擁有3個備份之類。

  此外,在有新數(shù)據(jù)節(jié)點(diǎn)添加到框架中時,Hadoop 還可以自動平衡每個數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)載有量。同樣,名字節(jié)點(diǎn)也可以擁有冗余和復(fù)制功能,用于在單個儲存數(shù)據(jù)屬性信息的名字節(jié)點(diǎn)出現(xiàn)故障時可以恢復(fù)相應(yīng)的數(shù)據(jù)屬性信息。

  MapReduce 則是一種可以用來并行處理大數(shù)據(jù)的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語言(Java,Ruby,Python 等)按 MapReduce 的編程模型進(jìn)行編寫和運(yùn)行。其關(guān)鍵就在于三個詞: map,reduce, 和并行處理。我們通過一個例子來理解 MapReduce 的大致工作原理。比如我們有一30個字的字符串“開落花纏落花繞纏開繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”,任務(wù)是計(jì)算每個字出現(xiàn)的次數(shù)。

  最簡單的方法是按序讀取每一個字建立標(biāo)識索引并計(jì)算出現(xiàn)的次數(shù)值存入內(nèi)存,如果是新字,值為1,如果是出現(xiàn)過的字則次數(shù)值累加上去。此種方式是按串行的方式進(jìn)行的,所花的時間會隨著字符串的長度和復(fù)雜度程線性增長。當(dāng)字符串是以萬計(jì)百萬計(jì)時,比如基因組數(shù)據(jù),所花的時間將是相當(dāng)驚人的。 并行處理則能節(jié)約相當(dāng)多的時間。

  我們先把原文件分割到幾個小文件塊,然后對每個小文件塊進(jìn)行字的標(biāo)識索引和附加數(shù)值(這兒不進(jìn)行累計(jì),只是簡單的單次點(diǎn)數(shù)),然后再排序重組把相同字放在一起,然后我們再用縮減法計(jì)算出字及其相應(yīng)的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟:

  圖八

分享到: 收藏

專題

宁晋县| 恩平市| 嵩明县| 宜川县| 怀远县| 松滋市| 鄂温| 通州市| 沂源县| 盐津县| 府谷县| 元朗区| 通许县| 金山区| 新晃| 渝北区| 孝义市| 石景山区| 临颍县| 江津市| 桃源县| 温宿县| 文化| 梅州市| 苍梧县| 弋阳县| 鄯善县| 绥中县| 汪清县| 石楼县| 宁国市| 永泰县| 都匀市| 崇明县| 延津县| 藁城市| 尚义县| 舒兰市| 金乡县| 临夏县| 博野县|