大資料時代正在深刻影響生物醫學研究:海量資料需要在不同系統和機構間共用和分析,但因缺乏統一的標準而使研究者無從下手;資訊技術和生物醫學的結合更加緊密,兩者兼通的複合型人才也明顯缺乏。
面對如潮水般湧來的海量資料,如何更好地利用,成為資訊技術和生物醫學領域共同面對的挑戰。
大資料時代撲面而來
2012年,美國政府發佈了《大資料研究和發展倡議》,旨在利用大量複雜資料集合獲取知識和提升洞見能力,投入金額高達2億美元。
所謂大資料,或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理並整理成為説明決策更積極目的的資訊。
前不久,在以「資訊技術與未來醫學」為主題的第二屆「與大師同行」學術交流活動上,來自耶魯大學、麻省理工學院與哈佛大學博勞德研究所、美國勞倫斯伯克利國家實驗室、中國工程院等研究機構的國際知名學者,對大資料對生物醫學的影響、 大資料時代生物醫學研究標準化困境和複合型人才缺乏難題進行了探討。
中國工程院院士韋鈺表示:「生物醫學正進入大資料時代,很多研究都是大資料研究、大資料存儲,從大資料裡面挖掘新資訊。 」
她舉例說,比如現在診斷某種疾病,醫生可能需要調用患者的基因數據、從小到大的病歷等大量資料。
近日,深圳華大基因研究院院長汪建曾表示,大資料與大科學是未來生物經濟發展的核心點。 「要解決當前生命科學的問題,需要從時空狀態對生老病死進行解讀,這就需要大資料。 這種大資料揭示的就是大科學,從而衍生出大產業。 」
僅以深圳國家基因庫為例,其中的樣本量已達130萬份,其中人類樣本115萬份,動植物、微生物等其它樣本15萬份。 至2013年底,預計實現1000萬份可溯源生物樣本的存儲,2015年底實現3000萬份生物樣本的存儲。
而這僅僅是不斷膨脹的大資料的冰山一角。
標準化困境浮出水面
不同系統和科研機構之間難以實現標準化的資料共用和分析,這令很多科學家無所適從。
美國特拉華大學生物資訊學和電腦生物學中心主任吳慧華表示,上述問題是生物醫學與資訊科學結合過程中遇到的關鍵難題。 目前獲取海量資料變得越來越方便,但一家機構與另一家產生的資料有很多差別,把這些資訊集中分析時就需要一個共同的標準。
以對大資料需求最為迫切的醫院為例。 美國勞倫斯伯克利國家實驗室基因組科學部主任魯賓(Rubin)表示,理想狀態下的目標是建立統一的電子病歷系統,這些資訊應該有統一的標準,但現實並非如此,各個醫院存儲的資料標準不同,而且不同系統存儲的資訊也不一樣。
據吳慧華觀察,目前在美國等國家,不同機構和資料庫產生和存儲的資料都是遵從不同的標準,標準化問題在業內尚未達成共識。
對於標準化之難,魯賓解釋說,資料量大並非關鍵,而是資料類型的多樣性導致了難以統一標準。
他說,比如基因測序,雖然資料量很大,但屬於同一類型,就比較容易在同一標準下進行分析,而生物醫學方面的資料就困難得多,涉及血壓、心跳等多種不同類型的臨床和數位化資訊,有些資料之間難以關聯,這便造成了標準化的挑戰。 目前各個國家已經開始重視這個問題,資訊科學和生物醫學的學者需要更加緊密的合作。
在吳慧華看來,中國科學家應該積極加入國際標準的討論、設計和制定中,更多參與國際上的生物醫學資訊共用。
複合型人才鳳毛鱗角
標準化雖然艱難,但與會業內人士普遍認為,當務之急是解決生物醫學和資訊科學兼通的複合型人才缺乏困境。 因為兩者結合過程中的標準化及一系列問題的化解,需要研究者對兩個領域都有很深的造詣。
據與會專家介紹,目前鮮有高校主動設置生物醫學和資訊科學的交叉學科和院系,橫跨這兩個領域的複合型人才大多源自學者自發或在導師引導下的選修。
耶魯大學醫學院幹細胞研究中心主任林海帆對自己的一位學生印象深刻。 這位學生曾經主動提出關注生物資訊方面的研究,當年很多老師以為他不務正業。 最後他選擇了兼修資訊科學,現在已經是生物醫學和資訊科學兼備的稀缺人才。
「我發現有的學生雖然選擇生物專業,但其實很有數學天分,我們研究所資訊部的主任就是這樣培養出來的。 」林海帆說。
吳慧華正是這種複合型人才的典型。 她同時具備生物學和電腦科學教育背景,曾獲臺灣大學理科學士學位、美國普渡大學植物病理學碩士和博士學位,以及德克薩斯大學泰勒分校第二碩士學位(電腦學)。
為促進多學科研究和教育,她2009年在特拉華大學創立生物資訊學與計算生物學中心(CBCB),由來自5個學院的60多名教師組成,並創立或負責多個生物資訊學教育專案。
麻省理工學院和哈佛大學博勞德研究所副主任、首席資訊官梅西羅夫(Mesirov)介紹,美國政府正在推動電腦科學和生物學等交叉學科的教育,從國家級科學中心的層面,促進高中階段的學生開始學習交叉學科的知識。
這,也許對中國會有所啟迪。
(責任編輯:fumingli)