衛星收集了那麼多資料,如果不用,那收集它幹什麼呢? 如果只讓少數人關起門來用,那麼這種保密是要防止什麼呢?
大資料用於環境保護,科研人員開發新的森林映射工具,當大片森林被砍伐、被破壞時,工具將對監視者發出聲響警告。
現在國內大資料被叫得很響,但是空談比較多。 我不喜歡空談,我想看到大資料的應用實例。
4月16日的《科技縱覽》提醒清單(IEEE Spectrum Alert)發表一篇文章,介紹將大資料用於環境保護,科研人員開發了一個新的森林映射工具,當大片森林被砍伐、被破壞時,工具將對監視者發出聲響警告。 這引起了我的興趣。
這個由世界資源研究所開發的、名為Global Forest Watch(全球森林監視)的線上工具,將大資料處理技術應用於衛星圖像,能夠隨時發現森林採伐和受損的情況。 使用者通過它,可以探索全球地圖,發現自2000年以來森林的變化趨勢,同時可以考察森林情況,其精度可達30米。 該地圖的熱帶區域每16天更新一次。 使用者可以選擇「警報」功能,即當系統偵察到非法採伐或者森林火災時將第一時間對你發出警報。
當森林中一棵大樹倒下,電腦將發出一個警告,給環保人士、研究人員和環境政策制定者。 這事看似容易,實則不易。 要從雜亂無章的特殊格式的衛星資料裡找到那塊特定的森林,然後從圖像上識別出剛剛倒下的那棵樹,隨即要即時發出警告推送給相關人員——這其中技術難點很多。
Global Forest Watch由谷歌地圖引擎提供技術支援,由美國NASA和美國地質調查局的幾顆衛星提供圖像資料。 此前,谷歌開發了一個平臺,集中了千萬億位元組的地球科學資料,向研究人員開放,讓他們可以用簡單直接的方式來使用這些資料。 谷歌地球引擎高級開發人員David Thau說:「使用者只要登錄、取出這些資料、運行他們自己的演算法就可以了。 」谷歌地球引擎現在已經有數以千計的研究夥伴。
而谷歌森林監視是一連串專案研究成果的集成。 世界資源研究所的資料實驗室早就有一個熱點地區森林警報系統,基於NASA兩個衛星Terra和Aqua上的中等解析度的分光輻射度計所測量的資料運行。 美國馬里蘭大學一位地理科學Matthew Hansen教授與谷歌地球引擎合作,將NASA和美國地質勘探局的幾個地球資源衛星,用於全球森林監視。 前者能夠提供較好的時間解析度,而後者則可以提供很好的空間解析度。
2008年,美國地球資源衛星資料可以自由使用了。 每30米一個圖元點,一共1430億個圖元點,Hansen每月每年跟蹤這些點,發現根據季節的不同,它們的特徵會呈現出正常的變化。 Hansen的合作者于2013年11月發表了一個對剛果2000年至2012年消失的150萬平方公里森林的報告,他們在10000台電腦上計算了一百萬CPU核小時。 在雲計算中,研究人員要考慮計算任務在整個網路中的分佈,而地球引擎的研究者只要用一個程式介面進入他們的問題,就能夠實現自動並行化,十分簡便易行。 為了建造公用的全球森林監視網站,世界資源研究所計畫讓大眾都能取得這些大資料,希望政府部門、商業界、研究人員和各種利益團體都能用這個工具,以得到森林管理的較好圖像。
通過這個報導,我有幾點感想:
一、大資料在這裡得以應用決定于三要素:衛星、David Thau和Matthew Hansen。 衛星提供資料,David Thau開發平臺,Matthew Hansen做資料分析。
二、衛星是要用的。 我們經常聽到我國衛星發射成功的消息,卻很少聽到衛星被用上了的消息。 我們的衛星發射技術的確已經過關,而且已經商業化。 我們自己也發射了許多衛星。 但是,較少聽到衛星做了什麼用、對國民經濟起了什麼作用、衛星資料可以供研究人員自由使用。
三、大資料的研究一定要有實際用處。 用大資料做森林監視就是一個很好的實例。 每年我國森林火災和非法砍伐時有發生,如果能實現自動監測,並且即時給相關人員推送警示,那該多好啊! 可要實現這一步,還有許多工作要做——IT人員要提供工具,方便專業人員處理這些資料;專業人員要研究他們自己的演算法作出各種監視的判斷。 這真不容易啊!
(作者:中科院計算所研究員)
(責任編輯:meng)