大資料探討:如何整理1700億條Twitter發佈資訊?

來源:互聯網
上載者:User
關鍵字 圖書館 圖書館 發佈 圖書館 發佈 已經 圖書館 發佈 已經 大資料 圖書館 發佈 已經 大資料 國會

隨著社交網路蒸蒸日上,美國國會圖書館不得不面對達到133TB之巨的Twitter發佈資訊檔;好在經過實踐,他們已經找到了管理此類資料的辦法。

截至目前,美國國會圖書館所保存的Twitter資訊數量已達到1700億條、存儲檔體積更到達133TB--由於每一條資訊都已經在這套社交網路中分享及轉載,圖書館的技術團隊需要想辦法為使用者拿出切實可行的檢索方案。

在現階段的專案報告中,圖書館管理人員指出目前市場上提供的此類大資料管理工具無法解決他們的實際困難。 "很顯然,現有技術還只能滿足獎學金資訊等規模化資料集的訪問需求,而在創建及發佈此類資料方面則表現乏力,"館方表示。 "由於此類任務的複雜性及對資源的極高要求,私營部門尚無法拿出具備合理性價比的商業方案。 "

如果私營企業都難以搞定大資料管理工作,那麼預算拮据、全靠政府資金支援的非營利性機構--包括全球最大的圖書館在內--又該如何解決這一難題? 要拿出一套實用、經濟、便捷且有能力處理1700億條Twitter資訊的索引系統無異于癡人說夢。

Twitter曾簽署一份協定,允許美國國會圖書館訪問該社交媒體網站中所發佈的全部更新資訊。 館方官員坦言,他們必須建立一套説明研究人員訪問社交平臺資料的系統,因為隨著網路化交流趨勢的不斷普及,以期刊及出版物為代表的傳統溝通方式已經被逐漸取代。

在Twitter剛剛誕生的2006年到2010年間,首批資料轉儲檔為20TB,其中囊括了210億條Twitter資訊(包括使用者當前位置及消息描述等中繼資料)。 最近,館方剛剛迎來第二批轉儲資料--總體而言,這部分複本壓縮檔總體積為133.2TB。 在此之後,圖書館將與Gnip公司展開合作,以小時為單位收集全部Twitter發佈資訊。 2011年2月公佈的統計數字顯示,當時每天經由Twitter發佈的資訊約為1.4億條;而到去年10月,這一數位已經增長到約5億條。

研究人員強烈要求國會圖書館儘快開放資料訪問功能--館方稱已經接到超過四百次此類請求。 該專案由圖書館與Twitter雙方並行實施,將為使用者提供Twitter使用的歷史記錄,能夠逐項列出他們通過帳戶發佈過的每條資訊。

美國國會圖書館在大資料管理方面算得上經驗豐富:根據工作人員的說法,館方自2000年開始就一直在為政府網站進行資料歸檔整理工作,資料總量超過300TB。 然而Twitter的出現令歸檔工作陷入僵局,因為館方實在找不到合適的辦法保證資訊易於搜索。 如果繼續使用館方長期以來一直所倚仗的磁帶存儲方案,那麼僅查詢一條2006到2010之間的Twitter資訊就需要耗費最多24個小時--而這批轉儲資料還僅占資料總量的八分之一。 "Twitter資訊之所以難於整理,一方面是由於資料量過於龐大,另一方面則是因為每天都會有新資料不斷加入進來,而這種增長速度仍在不斷提升,"官方指出。 "此外,Twitter資訊的種類也越來越多樣。 普通Twiiter資訊、利用軟體用戶端發出的自動回復資訊、手動回復資訊、包含連結或者圖片的資訊等等,這一切讓我們無從下手。 "

尋找解決方案的道路是曲折的。 國會圖書館已經開始考慮分散式及平行計算方案,但這兩類系統實在太過昂貴。 "要想真正實現搜索時間的顯著降低,我們需要構建起由數百乃至數千台伺服器組成的龐大基礎設施。 這對於我們這種毫無商業收益的機構來說成本過高、根本不切實際。 "

那麼館方到底該如何應對? 大資料專家們給出了一系列參考方案。 就國會圖書館的情況而言,技術團隊也許最好進行分類處理的方式,即利用一款工具處理資料存儲、一款工具負責檢索工作、另一款則用於回應查詢請求,Mark Phillips指出。 他既在Basho擔任社區及開發推廣主管,同時也是開源資料庫工具Raik的創始人(該工具在鍵-值存儲方面便利而極具可擴充性)。

大資料管理工具已經構建起欣欣向榮的新興行業,使用者可以根據不同的使用需求與預期成本選擇專有軟體或者開源方案。 國會圖書館的技術人員所面臨的最大問題在於,他們該如何開始整套系統的創建和管理工作。 如果館方希望走開源的道路,那麼可選的資料庫創建及管理工具可謂百花齊放--從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum資料庫可謂應有盡有。 二者還能夠與Apache Solar--一款開源搜索工具--加以整合。 開源為開發者們指明瞭一條免費獲取原始程式碼的光明道路,能夠在商業硬體上構建起理想中的系統成品,然而採用開源也意味著我們需要在後端開發工作中投入大量人力物力。 當然,國會圖書館也完全可以走更昂貴但更省心的專有軟體道路,從甲骨文或者SAP這些業界巨頭那裡直接採購資料庫產品。

不過無論採取哪種方式,Twitter專案中那碩大無朋的資料總量仍然難以攻克。 不過Phillips的態度給了我們一定信心。 他指出,雖然Twitter目前的資料量已經達到133TB且仍處於快速增長之中,但Basho公司已經接觸過資料量達到PB級別的客戶,並且在自己的平臺上順利完成了任務。 只要國會圖書館能夠追蹤並總結出資料庫容量每個月或每個季度的增長幅度,並根據結果為數據存儲配備充足的硬體資源,那麼Basho的資料庫軟體將有能力解決館方的難題。

那麼使用雲方案可不可行呢? 從理論上講,國會圖書館可以採用以Amazon Web Services為代表的公共雲資源保存這些資料,而且隨著Twitter資訊總量的不斷增長,AWS會自動處理必要的硬體擴容工作。 然而在Basho公司工程師Seth Thomas看來,這種方案的長期性價比值得商榷。 由於館方顯然打算永久保存這些資料,所以混合式架構可能更具經濟效益。 也許更好的辦法是將資料保存在本地,然後利用雲服務實現分析功能。 如此一來,館方只需根據搜索量為回應請求所投入的動態資源支付費用即可,而終端系統也只需處理與請求量相對應的工作負載。

無論如何,國會圖書館已經下決心將這些Twitter資訊納入檢索體系。 而身為普通使用者,我們要注意的則是--只要更新Twitter,資訊就會被記錄下來。

原文連結:HTTP://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn

(責任編輯:蒙遺善)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.