專家眾議 大資料時代微博瓶頸如何破

來源:互聯網
上載者:User

近年來,微博成為了時下最為時髦的互聯網應用。 它不僅是互聯網發展的一個新興產物,也是社交平臺更趨豐富和細化的應用分支。 自從2009年新浪推出國內首個微博平臺以來,微博在國內的發展猶如雨後春筍,遍佈大江南北。

2010年迎來了國內微博發展的春天,新浪騰訊等入口網站均推出微博業務。 自去年以來,微博使用者數量獲得迅猛增長。 今年5月份新浪發佈的第一財季報告顯示,僅新浪微博使用者數就已增至3.24億人。 而另一個微博巨頭——騰訊微博,也呈現出發展迅猛的姿態,微博註冊使用者也突破3億大關。

微博獲得迅猛發展有著深層次的原因。 一方面,微博的內容組成隻是由簡單的隻言片語組成,對使用者的技術和文字功底要求較低,而且在語言的編排組織上,也沒有博客那麼高。 另一方面,隨著微博的推廣,運營商開放API使得使用者都可以通過手機、平板電腦、PC等各種終端和系統平臺即時更新和追蹤微博內容。

除此之外,最為重要的原因是中國人口基數大,中國線民數量眾多,微博的使用人群數量也大,狀態資訊更新頻繁、資訊傳播迅速。 根據中國互聯網資訊中心的統計,截至2011年12月底,中國線民數量突破5億,達到5.13億。 眾多線民的背後,不僅有助於擴充微博使用者群體規模,也為廣大商家和運營商從微博中獲取商機帶來了便利。

微博大資料:大商機 大煩惱

直觀、便捷、高效的傳播與轉發模式,是微博運營商挖掘商機的潛在動力。 每一個微博註冊使用者,既是使用者者同時也是消費者。 美國財經網站CNNMoney曾撰文指出,Facebook每名使用者每個季度能給其貢獻1.21美元的營收,在這個微博火熱的時代,誰搶佔了微博的先機,誰就會在激烈的競爭中更脫穎而出。

隨著使用者的增加,微博將會逐步實現商業化。 其核心是為使用者提供增值服務,利用廣告對應的頁面吸引粉絲互動,對品牌和產品進行推廣,説明微博運營商實現盈利;另一方面,國內外已經出現很多專業資料採礦和分析機構,利用微博平臺收集海量資料,對微博使用者的言論和興趣愛好進行分析, 從微博「大資料」中挖掘商業價值。

然而,由於微博使用者、微博內容及其複雜性的持續增加,要想實現高效、快速的從海量微博內容中挖掘有價值的資訊,並從中提煉出具有商業價值的決策分析資料,對於任何一個資料採礦的企業或者微博運營商來說都面臨著極大的挑戰。

新浪微博平臺首席架構師楊衛華表示,一方面,微博運營商需要提供高效、可靠、穩定的微博平臺,支撐不斷增長的微博使用者和微博內容,尤其是音視頻等海量非結構化資料帶來的高訪問量需求;另一方面,要有符合開放、易用而又支援定制化、 可輕鬆擴展的資料採礦平臺,充分利用已有的硬體平臺,支撐高效靈活的資料採礦和分享應用。

精「芯」構建資料採礦平臺

微博面臨的諸多挑戰,其實也見證了大資料應用下的常見困境。 微博運營商需要搭建起能夠支撐不斷增長的使用者訪問需求,並提供開放、可支援定制化的API,為運營商和協力廠商實現微博資料價值挖掘奠定基礎。

新浪微博平臺首席架構師楊衛華就曾表示,很多突發事件的訪問峰值,會給微博運營商帶來嚴峻挑戰。 「(除此之外)我們還要關注怎麼樣打造一個高性能架構。 」楊衛華接著表示。 這些問題的本質其實是架構需要考慮高訪問量、海量資料下的易於擴展、低延遲、高可用和異地分佈的問題。 新浪微博每天有數十億外部網頁和API介面訪問需求。 高性能系統要具備低延遲、高即時性的特點。 微博的核心價值就在於實現高即時性,而即時性的核心就是盡可能讓資料鄰近CPU,避免出現磁片IO問題。

新浪研發部平臺架構高級總監童劍也告訴記者,現在新浪微博的伺服器群組,在晚上高峰期,每秒要接受100萬以上的回應請求,壓力巨大。 新浪也在不斷尋找性能更強的伺服器來滿足他們的需求。 為此,新浪微博從推出伊始就與英特爾建立起了廣泛的合作關係。 得益于得天獨厚的優勢,英特爾至強平臺能夠提供顯著的性能優勢,即時回應數百萬訪問請求和微博訊息佇列處理。 在此基礎上,一方面x86架構能夠提供更具性價比的解決方案,能夠適應和滿足新浪微博推出初期未能帶來盈利的問題,並支撐微博的持續發展和業務擴充;另一方面,開放性架構有助於新浪微博推廣和開放API, 讓更多協力廠商依託微博平臺開發出微博資料採礦等應用。 其開放性也體現在可以更好的相容並支援微博程式碼的優化,滿足更高的資源整合和性能要求。

新浪微博平臺上的風雲榜、微資料、微報告,以及餐客等協力廠商微博資料採礦,就是基於微博內容對海量資料進行挖掘和價值提煉的典型應用。 在基於英特爾架構的基礎上,新浪還特別重視軟體層面的大資料解決方案。

根據楊衛華的介紹,目前新浪微博主要採用2種方法來處理海量資料,分別是傳統的關聯式資料庫和NoSQL。 在關係資料庫中,可以通過sharding將資料分散至多台伺服器上,並針對不同時間段的熱門微博內容或者關鍵字,通過時間分片進行sharding。 比如針對微博熱詞或者微博帳號影響力按照一定規則進行排序,提供風雲榜排名,也可支援微博使用者鑒定自我影響力和瞭解當前熱門話題。 NoSQL屬於非關聯式資料庫,同時也是Hadoop框架中的HBase子模組,能夠搭建起應對微博海量資料的解決方案。 對於音視頻、投票排名等非結構化資料,可以通過對微博資料按行業類別進行挖掘、分析和處理,並將處理結果形成微報告,指導運營工作。 而開放API的新浪微博,也可以為協力廠商開發內容更為豐富的微博資料採礦應用提供外部介面。 不遠的未來,新浪微博將升級系統,直接採用能夠與現有架構實現完美支援、並將性能發揮至極致的英特爾Hadoop發行版本,實現大資料完整解決方案。

英特爾Hadoop發行版本,專門針對英特爾架構平臺進行了一系列優化,能獲得比非英特爾發行版本Hadoop的性能實現成倍增長,使其處理能力達到或者接近于即時的效果,同時可確保更好的穩定性。 英特爾Hadoop Manager 2.0可説明管理員簡化Hadoop的部署和管理工作,提高效率。 這些,讓已經部署了英特爾硬體平臺的新浪微博看到了希望,精「芯」構築的軟硬一體資料採礦平臺,為開放API給協力廠商提供更多微博資料採礦提供更好支援。

總結:

大資料,既是一種機遇也是一種挑戰。 作為國內最大的微博平臺,新浪微博在應對不斷增長的微博使用者和資料內容帶來的挑戰的同時,也需要特別抓住微博帶來的巨大商業價值。 基於英特爾平臺的底層架構和英特爾Hadoop發行版本分散式處理系統,可以説明提供可靠、高效而又易於擴展的微博平臺。 在實現新浪微博通過微博資料進行挖掘,滿足微博使用者個人化應用體驗的同時,也可以滿足協力廠商挖掘微博資料價值為企業提供決策參考的需求。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.