生物大資料「行路難」

來源:互聯網
上載者:User

「大資料」時代已經到來。 目前,大資料成為繼雲計算、物聯網之後IT行業又一大顛覆性的技術革命。 而隨著技術的普及,大資料在生物、金融、零售、能源、交通等領域已得到應用,正在滲透到人們生活的各個方面。

同其他領域相比,我國在大資料方面和國外起點一致,可以說,大資料時代也是我國一次新的發展機遇。 為此,本報將開設專欄介紹大資料在不同領域的應用現狀及我國大資料發展亟需破解的難題,與讀者共迎大資料時代的來臨。



雖然我國資料產生量很大,但是生物大資料與國外相比仍比較落後。

世界盃預測、高考預測、當前哪種男性最受歡迎...... 這些大家所熟悉的分析都用到了大資料,但是很少人知道,大資料早將「手」伸到了生物醫學領域,開始了疾病預測。




   歐美國家對生物領域發展大資料十分重視。 今年3月,英國宣佈,英國醫學研究理事會(MRC)將投資3200萬英鎊資助首批5大專案,來提高醫學生物資訊 學的能力、產能和核心基礎設施。 這項「醫學生物資訊學計畫」預計總投資5000萬英鎊,將通過建立耦合複雜生物資料和健康記錄的新方法,來解決關鍵的醫學 難題。 





  早在2012年3月,美國奧巴馬政府就宣佈推出「大資料的研究和發展計畫」,將大資料提升到了國家戰略層面,承諾將投資兩億多美元。 2014年,美國政府就如何充分利用生物醫學大資料,又啟動了Big Data to Knowledge計畫。 





  雖然我國企業也頻頻在大資料上有所動作,但是上海生物資訊技術研究中心主任、中科院上海生命科學研究院生物資訊中心主任李亦學對《中國科學報》記者指出:「雖然國內大資料在其他方向的發展遠超國外, 但是生物大資料與國外相比仍比較落後。 」 





  沒有免費的午餐 





  生物大資料發展相較國外落後,並不是因為沒有資料量產生。 





據我國最早從事理論生物學和生物資訊學研究的科研人員之一、中國科學院院士陳潤生介紹,以華大基因為代表的基因測序機構為生物大資料的產生作出重要貢獻。 





  華大基因當前的測序量大約佔據國際資料量的40%左右,而且隨著技術發展和測序手段成本的下降,幾乎所有的研究型大學和研究單位,無論是在農業、林業還是醫學,都對基因測序有所涉及。 





  「基因組層面的生物大資料的發展帶動了蛋白質組、代謝組、生物網路等各個層級的相關生物大資料的海量產生,但是我國當前還未能建立統一的生物資料資訊中心。 」陳潤生指出。 





  李亦學也認為,生物大資料滯後于國外的最根本原因在於我國沒有大型的綜合生物大資料庫,也沒有生物大資料中心平臺。 





  這意味著,我國開展研究時只能向國外的大資料庫「求助」。 雖然這些大資料庫都宣稱,只要遞交申請就可免費共用資料,但是,天下並沒有免費的午餐。 





  記者瞭解到,國際一些大型生物學資料庫要求資料使用申請者提交詳細的資料使用說明,即使資料庫中已存有我國科學家所提交的相當規模的資料,但想再取出使用卻絕非易事。 





  李亦學稱:「免費共用資料僅是從理論上而言,實際核心資料不會及時交給申請者,內行會發現獲得的資料都是非核心的或不完整的。 臨床醫學相關的大資料庫則有專門委員會來審核資料申請者,如果拒絕申請,也不會給出理由。 」 





  因此,為了具備拿資料的資格,我國科學家們常需反復準備申請材料,卻往往再也沒有下文。 「受制於人,非常惱火。 」李亦學感歎道。 





  建大平臺遇「難題」 





國家級生物資料庫的建立,往往帶有公益色彩,需要有長期穩定的投入和專業的技術隊伍。 據專家介紹,上世紀90年代,我國有關部門已考慮建立國家層面的資料中心,但直到現在,仍未討論出具體的實施方案。 





  那麼,為何資料中心遲遲未能建立? 





  李亦學向記者算了一筆賬,英美國家對資料庫的建立投入了很多資金,引進的人才大部分有博士學位,每年的費用都由國會撥款支援,來源比較穩定,一年約需投入1億美元。 





  「我國如果建立一個類似的生物大資料中心,應該也要有數百人的編制和每年幾億元的長期穩定投入。 這筆錢如果由政府支付,障礙仍然不小。 」李亦學分析。 





  陳潤生也指出,建立一個國家層級的資料平臺雖然在科學界是共識,但是這個中心建立的地點、呈現的方式(實體還是虛擬)、囊括的內容、涉及的權利範圍以及怎麼管理、由誰來管理都有很多不同的方案。 





  在這樣的形勢下,不能集中精力、統一調配全國的生物資料成了一道難題。 





  「用基因組資料得跟華大商量,用蛋白資料得跟其他人商量,小資料中心雖然有,但都是各自的,沒有統一的協調管理。 沒有全國的生物資料中心,則無法統籌。 」陳潤生道出了難處。 





  同時,我國生物資料雖然產出量大,但利用率遠遠不夠。 儘管產生的資料提供了很好的資訊,但是挖掘其全部價值還牽扯到很多方面。 如資料量很大,能否在短時間內分析和挖掘其價值是個問題。 





  而且,大資料產生後需要相應的理論、技術和方法來跟進,也需要新的工具和方法。 業內人士指出,國內現有的生物大資料分析能力雖然與歐美相差不大,但是在資料分析構架、軟體系統與先進的IT技術接軌上有待提升。 





  植根中國「土壤」 





李亦學指出,生物大資料雖然面臨這些障礙,但是可以靠「抓目標、強合作」追上國際的腳步。 





  他認為,中國發展生物大資料的優勢在於有海量樣本。 





  當下應該做的,就是保護國內的生物資料資源並且尋找有價值的利用方向。 





  「一是要明確生物大資料發展的目標和途徑,二是敞開胸懷和國內的研究單位合作,將生物大資料這項事業做好。 」李亦學強調。 





  例如,我國目前實行的醫聯工程在上海地區已經取得了一些成果。 





  三甲醫院和社區醫院把就診居民的就診記錄和健康檔案全部聯網,建立了資料庫體系,包含了3400萬份電子病歷和檔案。 





  李亦學表示,在征得病人同意後調用健康檔案和檢查結果,既提高了看病效率,又不會妨礙隱私保護,像小水珠一樣的資料最終也能彙聚成汪洋大海,有益於生物大資料這項國家戰略資源的保護與利用。 





  陳潤生也指出,生物大資料發展應該腳踏實地,植根于中國的「土壤」,挖掘自身特色。 





  「中國的物種自身具備多樣的特點,完全有可能形成有特色的生物大資料體系。 在這樣的形勢下,瞅准問題,發展生物大資料的目的性更強一些,這才是我們要關注的。 」陳潤生說。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.