Science:生物學中的雲計算和大資料

來源:互聯網
上載者:User
關鍵字 雲計算 可以 他們 自己

諾獎得主、生物化學家 弗雷德里克·桑格(Fredrick Sanger )與蘋果公司創始人 史蒂夫·約伯斯(Steven Jobs)有什麼聯繫?

1977 年 2 月,Fredrick Sanger 與他的同事發表了第一個生物體的完整基因組序列,即噬菌體 phiX174 的 5375 個核苷酸。 從那之後,人們就清楚地意識到,隨著科學家測出更多複雜物種,全基因組的研究將會變得繁瑣冗長。 幸好,發展中的基因組學很快就有了解決方案。 僅 僅 4 個月之後,加州庫比提諾一家新成立的小公司就開始為電子發燒友們出售 Apple II。 科學家也迅速發現,這套相對划算的新計算系統是存儲和分析基因數據的理想系統。

如今,分子生物學根本離不開電腦的説明。 當高度自動化的測序儀每天產生數百萬百萬位元組的新資料時,研究人員仍然能夠常規地搜尋巨大的線上資料庫,尋找基因間的新聯繫。 事實上,「生物資訊學」這個全新的科學學科已悄然興起,用於分類、研究不斷增長的生物學新資訊。

很多研究機構都建立了專門的計算中心,處理過多的資料。 然而,近期生物資訊學專家開始借用電腦行業的另一套策略,避免更多的花費,那就是雲計算(或分佈 式計算)。 基於雲計算的系統不同于當地語系化的存儲和分析資料,它將強度很大的工作程式化地按需分派到成百上千的遠端伺服器上。 早期採用雲計算基因組學的科研 人員不得不自己編寫軟體,但現如今電腦專家和伺服器公司開始設計更加人性化的介面,進一步推廣這一技術。

計算無極限

對於雲計算,最顯見的爭論就是新測序資料的絕對量。 「我們機構不大,每天能產生一百萬百萬位元組。 」紐約冷泉港實驗室定量生物學助理教授 Michael Schatz 說。 這足以在僅僅兩到三天內填滿一台桌上型電腦的整個硬碟。

Schultz解釋道,從全球來看, DNA 測序儀每年能產生大約150億兆(PB)位元組的資料(這一資料仍在迅速增長);而 1PB 就是 1000 個 TB。 要想把 150 億百萬位元組的資料燒錄到大容量 DVD 中,刻出來的光碟摞起來能達到2.5英里高,而這僅僅是原始資料。 顯微圖片等表型資訊的實驗資料甚至會成倍增加存儲的問題。

幸運的是,有些公司資金雄厚、計算經驗豐富,已經能夠解決這一規模的資料問題。 例如,谷歌公司會為使用者收集和處理幾百億百萬位元組的日程資訊。 「他們一天處理的資料超出了全世界一年產生的(序列)資料量。 」 Schatz 說。

為了達到這一要求,谷歌利用雲計算技術,將工作分派到世界各地的成百上千台伺服器「雲」中。 研究人員可以通過諸如亞馬遜公司EC2系統之類的分散式運算系統,取得類似廉價、便捷的服務,任何人都可以租用類似的大型伺服器「雲」。

然而,在匆忙選擇雲計算之前,研究者應該先評估他們的需求和本地資源。 有的科學家不需要與遠方合作者共用資料的話,就可以採用自己機構的計算中心,服務比 遠端雲系統更加快捷低廉。 Schatz 建議大家要跟著經驗走:「如果你的資料有幾億兆之多,又要與合作者共用,那麼還是雲計算平臺最合適。 」

有的研究機構沒有專門的計算中心,因此也想使用雲計算。 「傳統上來講,你會去建設一個大資料中心,買大量的設備。 但是這不僅造價高昂,而且大半時間,機器 都在空轉。 因此雲計算的好處在於,你只是支付了使用時的服務費,而剩下的時間你就不怎麼破費了。 」英國 Eagle Genomics 公司首席商務官 Richard Holland 說。

另一種「雲圖」

除了有權使用大量的遠端伺服器外,雲計算的一個典型服務就是提供基礎軟體。 很多雲計算產業現在依賴于免費、開源的工具,例如應用頗廣的 Apache 伺服器軟體和 Apache 的 Hadoop 外掛程式。 前者主要負責每台伺服器和網路間的基礎通信,而後者則用於執行複雜的計算任務,並在成千上萬台伺服器間進行有效分配。

網路公司最初研發出這種架構,滿足自身的需求—— Hadoop 處理著世界上所有 Facebook 的照片和 Yahoo! 的搜索。 然而在 2009 年, Schatz 和他的同事開始在基因組資料中使用它。 自此以後, Hadoop 成為了雲計算中生物資訊學的首選。 「在生命科學中,一次需要分析幾億兆或幾十億兆資料已經成了事實標準。 」 Schatz 說。

Hadoop 的一大優點就在於操作的簡便性,至少是對熟悉電腦程式設計的科學家來說。 「只要懂點 JAVA 程式設計就足以在非常大的集群中運行大規模的分析任務,這是用 Hadoop 的一大優勢。 」德國索爾布呂肯薩爾倫大學資訊系統學教授 Jens Dittrich 說。 Hadoop 不用記錄哪個處理器正在進行哪項任務,程式師可以像單機工作一樣去寫演算法。 而且, Hadoop 可以處理底層的複雜操作,將程式分派給上千台伺服器。

總體來說,雲計算特別是 Hadoop 確實存在一些缺陷。 為了在雲計算中分析資料,研究者首先必須將資料放進去。 即使網速很快,幾百萬兆的資料上傳也需要數個小時。 由於 Hadoop 缺乏很多資料庫中使用的高級索引系統,它對某些類型的分析也效率頗低。 有的索引架構較好,程式就可以鑒定資料的特定片段,這對於特定的查詢是很有必要的。 而有的系統沒有索引,就必須去搜尋整個資料集,往往花費的時間更長。

Dittrich 和他的同事最近開始著手處理這兩個問題。 這個團隊新研發的 Hadoop 侵入式索引系統能在資料上傳到雲時就創建出多個資料集的索引,通常被浪費掉的計算時間可以用來建立一套優化後續分析的有效工具。 這些索引可以加速處理過 程,有的研究問題甚至可以加速上百倍。 「坦白地說,這並不是最終的答案,是取決於分析任務的...... 但對於大部分任務來說,我們已經做得非常好了。 」 Dittrich 說。

即使新技術讓 Hadoop 如虎添翼,這一領域的專家仍然強調它永遠也不會成為通用的解決方案。 Dittrich 和 Schatz 都表明,以雲計算為基礎的系統擅長回答一些生物學問題,但其他領域則不然。 比對測序讀取、鑒定基因變異和通過RNA表達模式進行歸類都是雲計算解決方案的 合格目標,因為它們都需要從大資料集中搜尋個體片段的資訊。 另一方面,代謝途徑建模則要在小資料集上進行複雜的計算,因此本地計算系統反而會更加適合。

其他人的大資料

對於不習慣自己編寫電腦程式的生物學家來說, Hadoop 就不怎麼有用了。 有些公司已經面向這些科學家,開始提供雲計算資料分析方便使用介面。

「雲有各種不同的類型。 」Eagle 公司的 Holland 說。 從最基礎的伺服器租賃協定(也可稱為「基礎設施即服務」),到全面架構的應用服務或者「軟體即服務」(software as a service, SaaS ),一應俱全。 SaaS 中,服務公司提供雲基礎設施、資料存儲和生物資訊軟體。 很多情況下,研究者可以將他們的測序結果直接送至公司,然後在指向-點擊式網路環境中進行普通類型 的分析。 現在,加州聖地牙哥的Illumina等測序公司開始提供自己的 SaaS 系統,大量新興公司也開始探索這一新市場。

每個服務公司都有自己的方式。 例如,EagleGenomics 公司將各個預建的程式連接起來,為每個使用者量身定做軟體。 「人們通常找到我們說,‘我們需要建立一個SNP預測或變異定位的分析流程’,」 Holland 說,接下來,公司會利用已經發表的演算法並「將它們整合在一起,形成一個...... 能夠回答這些問題的工作流程。 」研究者然後就可以利用這一定制的流程在雲伺服器 上分析他們的資料。 更有經驗的使用者也可以自己探究這些電腦代碼,或者進行修改。

如果有些研究人員想要找到更便捷的雲入口,那麼有些公司現在就提供通用軟體,解決常規的問題。 「生物學家在我們伺服器中可以使用很多功能,只需他們在網路 瀏覽器中登錄並點擊按鈕。 」加州山景城 SaaS 供應商, DNAnexus 公司的首席執行官和共同創始人Andreas Sundquist 說。

儘管 SaaS 公司經常研發出自己的專利代碼和使用者介面,科學家在購買雲服務時仍應該諮詢底層的演算法。 「研究人員實際上是一夥保守派,他們喜歡那些已經發表、測試同行評議過和人們廣泛理解的演算法,不傾向于在重要的資料上試驗新的技術。 」 Holland 說。

幸運的是,大多數生物資訊新公司都願意去討論他們的系統。 「目前所有整合到Spiral的演算法都是經過同行評議的,我們非常理解,人們想用開源。 」華盛頓 州西雅圖Spiral Genetics公司首席執行官Adina Mangubat說。 為了便於使用,Spiral將自己的使用者介面和資料處理層放在發表的演算法中。 其他該領域的公司隨即附和,大多數 SaaS 租用方允許研究者直接接觸底層的軟體代碼。

雲覆蓋

雲計算仍然是個相對新穎的事物,有些領域的研究者仍然對它持懷疑態度,尤其是藥物學和生物醫學的科學家。 他們掌握著敏感的專利資料和病人資訊。 「人們肯定都會覺得,相比在雲環境中,本地集群更容易控制。 」Mangubat說。

這個顧慮其實是沒什麼道理的。 研究表明,近期美國發生的醫學安全事件中,四分之三是由於臨床醫生丟失了筆記本電腦或可擕式存放裝置。 「如果他們使用的是 雲...... 偷一個筆記本電腦就不是大問題了,因為你根本不可能一開始就把病人的資料放在筆記本裡。 」 Sundquist 說。

事實上,隨著銀行、政府和電子商務公司都已經把自己的資料導入雲存儲,伺服器設備的安全體系已經變得非常完備。 有些以醫學研究市場為目標的公司也非常關注 資料安全法律。 「我們的一大基本原則就是確保我們擁有臨床和診斷操作中所必需的企業級安全控制及各個特性。 」 Sundquist 說。

就算科學家租用的是裸雲基礎設施,而且自己寫演算法,他們也會希望安全性的保障。 Mangubat指出,流行的亞馬遜公司EC2雲租賃服務就遵守醫學資料的物理安全性,因此只有研究者自己的軟體是唯一的潛在弱點。

模糊的存儲

另一個對雲計算的共同擔憂是資料歸檔,這也是研究人員在簽署伺服器租約前應該問的。 如果 SaaS 公司倒閉,或者研究人員決定換成不同的系統,那麼租約上應該明確給出提取資料的路徑。 「我們提供的服務允許將所有的東西都刻在光碟上並且把一大摞硬碟寄給 他們,你不是‘嫁給’雲一輩子。 」Mangubat說。

然而對於通用的存儲來說,雲可以提供意外事故和本地災害的保護,因為雲服務一般會在多個地點複製資料。 「可能其中一個資料中心被流星擊中,另一個中心又有火山爆發,但是你還是能夠得到另一個資料備份。 」 Sundquist 解釋說。

雲存儲也能説明解決數位資訊歸檔中的問題。 例如,幾十年前存儲在標準電腦軟碟上的資料往往不能讀取,因為這種磁片磁碟機和作業系統已經淘汰了。 在雲計算 存儲中,工作人員不斷將資料轉移到新媒介中,而版本控制系統能夠保留舊版本的軟體。 以後,研究者應該能夠恢復這些資料及用於分析的工具。

然而不是所有人都滿意這樣的解決方案。 「只要能夠覆蓋就不是檔案。 」 Dittrich 說。 為了防止珍貴的序列資料被電腦程式和人為錯誤給毀了,他建議在另外一種媒介上存儲額外的備份。 「做備份的一個好辦法就是使用只能寫入一次的媒介,不 可刪改的DVD就是很好的辦法,你只能燒錄一次,永遠不能再覆蓋。 」他說。

然而隨著幾十億兆的資料繼續堆積,一些專家建言,基因組資料的最終存儲系統可能就是 DNA 本身,完成電腦與生物之間的連接。 這一觀點認為,以後重新測序一個存儲的生物樣本可能比從資料歸檔中獲取原始序列資料更便宜也更快。 「當前, DNA 測序需要幾天的時間,造價也很高昂,但展望未來...... 如果測序或多或少只是一瞬間的事,那就可能會成為資料存儲媒介。 」 Schatz 說。

原始出處:

Alan Dove. Biology Watches the Cloud. Science, 14 June 2013; DOI: 10.1126/science.opms.p1300077

(責任編輯:蒙遺善)

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.