標籤:
大資料的目的:生產小型資料
弱水三千,只取一瓢。如果擁有著一切,那麼我只是需要能夠解答我關心的問題的答案。如果我們想使用智能手機在指定的範圍內定位選擇一家意式餐廳。只需要輕輕的點擊幾下,智能終端就會列出當前所在的位置周邊10公裡以內的意大利餐廳。這個簡單的LBS應用,其後面用於被查詢的資料庫是及其龐大而複雜的(該地理資料庫包括了全世界所有的餐館的資料,包括它們的基本資料、經緯度、街道地址、使用者評價等等),但是針對所關心的內容,產生的結果資料集確非常的小(例如,在我們的智能終端上只會顯示這五家餐廳的位置以及相應的標註,點擊之後還可以彈出確切地址、電話號碼以及評級等資訊)。我們所需要的無非就是在這五家餐廳中選擇一家用餐而已。
在這個例子中,解答我們關心的問題的資料資訊,是從大型資料集中獲得的。但是最終你的分析和結論,都是採用了一個小型的資料集來完成(即是滿足你搜尋條件的五家餐廳)。
大資料資源的目的,就在於生產各種小型的資料集。沒有什麼解析工作是直接在大資料資源中進行的,大資料資源的使用一般僅限於搜尋和檢索。大資料資源實際上通過各種方式收集和組織了大量複雜的資料,在這樣的資源中,已經準備好瞭解答你的各種問題。當然,在未來,資料的生產者和召集人還有很多事需要做,例如如何辨別酒吧和餐廳?外賣店和餐廳有什麼區別?那些資料應該被收集?如果發生了資料丟失應該如何處理?如何有效儲存資料等)
大資料很少進行全盤分析(當然,也有可能),大多數情況下,都是通過過濾,大幅度降低資料維度和數量,把大資料分成相對較小的資料進行。此規則適用於科學研究中的資料分析。
澳大利亞“平方公裡鏡陣”探路者
泛星計劃(Panoramic Survey Telescope And RapidResponse System,Pan-STARRS)
大型強子對撞機
位於澳大利亞的“平方公裡鏡陣”,擁有七組全球層級的射電望遠鏡;歐洲核子研究中心的大型強子對撞機以及美國空軍資助的泛星計劃(Panoramic Survey Telescope And Rapid ResponseSystem,Pan-STARRS,直譯為全景巡天望遠鏡和快速回應系統),每天都能產生PB級的資料量。研究人員就是使用這些原始的資料,來生存小型的資料集以進行研究和分析。
耀變體
下面一個例子說明了從大型資料集中擷取資料子集的可行性。耀變體是罕見的超大品質的黑洞中釋放出來的速度接近光速的放射流,(它是一種密度極高的高變能量源,被假定為是處於寄主星系中央的超大品質黑洞。耀變體是目前已觀測到的宇宙中最劇烈的天體活動現象之一,並已成為星系天文學的一個重要話題。)宇宙學家萌都希望儘可能多的瞭解這些奇怪的物體。研究的第一步,就是儘可能多的去收集擷取與耀變體相關的對象資訊。然後在所有的收集到的耀變體對象中,進行各種對比、測量和識別,以確定其的總體特徵。最後發現,在廣域紅外探測器(WISE)收集到的整個可觀測的宇宙紅外資料中,耀變體的其中一個伽馬射線的特徵標識沒有被包含在其他的天體特徵中。研究人員從WISE的資料中,提取到了與這個伽馬射線相似的紅外特徵,這意味著觀測到的天體現象中,有300組對象與耀變體有關。通過對這300組對象進一步研究,使得研究者認為,約有150組對象是耀變體。這150組的對象,是從天文數字級的資料中分析出來的。這就是大資料資源的工作原理,通過一定的方法,來構造一個可用於高效分析的小型資料集。
大資料的目的:生產小型資料