大資料成功預測美國大選
顯然,「大資料」並不真正關心誰來當選下一屆美國總統。 不過所有的資料都顯示:政治科學家和其他人相關人士都認為奧巴馬獲得連任可能性比較大。 本次的成功預言,展示了大資料強大的能量。
統計模型在過去的幾個星期裡一直關注紐約時報FiveThirtyEight的博客作者和統計學家Nate Silver引導的熱門話題(甚至可以說是爭論)。 Silver已經成為本次爭議的焦點人物,在「旋風般」地宣傳他的新書的同時,他的模型預測:奧巴馬有超過80%的機會贏得週二的大選(後來模型提升到90.9%)。 然而,普林斯頓大學資訊技術政策研究員Zeynep Tufekci在上周迅捷的進行反擊:Silver絕對不可能保證奧巴馬將贏得11月6日的大選——僅僅說明有一個很高的可能性而已—— 他的模型中涉及到的任何結果都沒有考慮到黨派政治的影響。
信不信由你,Silver把所有的時間都花在建立統計模型——預測政治大選結果,雖然他不是唯一做這件事的傢伙,不過他是最有名的。 美國有很多院士,預測市場,業餘愛好者和其他人也能做到這一點,他們所有的人使用不同的資料,使用不同的方法來評估的特定結果的權威性。 除了少數例外,他們中的絕大多數也預測奧巴馬能夠獲得勝利。
他將Yahoo! Hadoop從20個節點擴展為42000個節點
Eric Baldeschwieler騎著「大象」意味深長
Eric Baldeschwieler,今年47歲,有很深的電腦技術背景。 在卡內基梅隆大學(Carnegie Mellon University)獲得應用數學(電腦科學)學士學位後,Eric又在加州大學伯克利分校獲得電腦科學碩士學位。 作為Inktomi公司Web服務引擎的技術領導者(Inktomi是第二個比較早出現的搜尋引擎, Amazon.com,eBay,HotBot,MSN,Overture,WalMart.com,LookSmart,Excite,HotBot都是他的客戶,而通過這些頂級的入口網站和目標網站,Inktomi向全世界半數以上的互聯網使用者提供最新 、最相關的搜尋結果),由於Inktomi在2003年被雅虎收購,Eric也隨之轉戰雅虎,並最終通過2年的努力,于2005年成為雅虎的Web搜索總設計師。 更富傳奇的是,Eric在2006年毅然投入雅虎Apache Hadoop專案的懷抱,將其從20個節點的原型系統發展為42000個節點的服務。 而後,當雅虎決定全力支援Apache Hadoop專案,並于2011年7月成立新公司Hortonworks時,Eric當之無愧地成為首任CTO。 作為資深技術人士,但當CTO的Eric感覺自己面臨了諸多挑戰。 但他對Hadoop的前景非常樂觀,「大家多貢獻一點,Hadoop將會創造奇跡。 」Eric將來到HBTC 2012,併發表關於Hadoop技術經驗分享的主題演講。
TripAdvisor:使用AWS比伺服器託管成本節省50%
讓我們先回顧下TripAdvisor的架構。 2011年6月,TripAdvisor發佈其架構。 過去一年多我們的業務發展迅速,讓我來總結下我們的成績:
每月5600萬訪問者每天3.5億頁面訪問量Hadoop集群運行著120TB資料,並快速增長中
這個夏天,我們從大學招聘了60名兼職,其中包括Luke Massa和Victor Luu,他們像我們的全職工程師一樣工作,很快融入了我們。 一直以來總有一個問題糾纏著我:為什麼要使用雲計算? Luke Massa和Victor Luu通過在AWS部署我們的服務,總結了在過去這個夏天他們在TripAdvisor發生的一切。
圖:AWS説明企業節省大量成本
在AWS上運行TripAdvisor
2012的夏天,TripAdvisor對我們的產品全部遷移到AWS進行了實驗性的評估。 首先,我們開始試驗將www.tripadvisor.com和所有國際功能變數名稱運行在AWS EC2環境,我們的工程師開始還懷有最簡單的問題:放棄我們已有的硬體,遷移到AWS上真的划算嗎? (AWS)能運行的完好嗎? (CSDN注:停電、颶風以及其它不可知的原因,AWS今年已經出現兩次大規模故障。 或許,TripAdvisor考慮過在自己的伺服器上運行OpenStack,這個開源平臺允許企業架設自己的私有雲,它相容AWS的大部分API。 )
幾個月以前,我們開始試驗性與雲計算親密接觸,當然結果並不是非好即壞。 我們在過程中學到了大量經驗,不僅僅是AWS提供的價值,還包括説明我們改造了原有託管伺服器集群的架構。 這一切都歸功於AWS的靈活性,我們將DNS切換,流量轉換到AWS,這非常實用,是非常好的學習工具!
目標
在EC2上建立網站的全部,評估實際生產環境的流量壓力建立成本模型確認架構升級後我們可以減少支出,並增加擴充性在轉換到AWS後,我們需要找到方法提升我們現有的架構
EC2的支出
支出包括三個主要部分:實例、EBS和網路。 假定生產環境的網路流量為200GB/小時,支出為14.30美元/小時。 可以預見,實例的支出佔據整個支出的大部分。
實際對比
部署每個資料中心需要大約220萬美元,加上每年30萬美元的升級和擴展費用。 固定資產支出(Capex)大約100萬美元/年,假設資料中心的初始成本分攤到3年中。 運營成本包括空間、電源以及頻寬,這些大概30萬美元/年。 合計成本為130萬美元/年/資料中心。 我們在每個資料中心有超過200台設備,每台典型設備的成本為7000美元。
如果我們將130萬美元全部花在EC2上,簽訂1年期合同,我們會得到下面的架構:
550個前端和後端實例64個緩存實例10個資料庫實例
成本1486756.96美元。
這意味著我們將增加60%的容量(目前已有340個前端和後端實例,32個緩存實例,5個資料庫實例)。
如果我們簽訂3年合同,將享有驚人的優惠,這個架構的成本僅為88萬美元/年。 如果我們想在三年內花掉390萬美元,我們將得到如下的架構:
880個前端和後端實例64個緩存實例20個資料庫實例
一個有趣的現象是,即便是這個架構我們只使用了1760個內核(每個伺服器2個CPU內核),然而我們現在使用(CSDN注:指傳統的伺服器託管方式)總共3500個內核。 顯然,我們確信當下的架構存在一些垃圾和潛在的威脅,運行效率十分低下。
成本節省總結
保留實例的前提下,我們計算後發現,簽訂1年合同情況下,年化成本將節省一半。 同時,我們不需要為流量高峰或系統備份預留實例,從而節省我們的總成本。 每個實例均可定制,以符合實際的需求。 而現在,我們只能使用每台伺服器的一部分性能。 運維人員-運維更加高效,因為我們知道實例會一直在那裡運行。
未來你的手機將變成超級電腦
《連線》雜誌的Klint Finley表示,五年後,英特爾可能會讓你的手機會兼作一台超級電腦。
這是英特爾的實驗單晶片雲電腦專案或SCC的目標。 該公司目前正在為晶片研發潛在的移動應用程式,以及使開發人員可以輕鬆地利用這種技術的開發工具,而不用成為超級電腦專家。
換句話說,ARM試圖把手機芯片到我們的超級電腦裡,英特爾做的則恰恰相反。 移動硬體和資料中心硬體之間的界線正越來越模糊。 這可能看上去很奇怪,但如果你具有大局觀,就能發現它的意義。
Appro推出液冷超級電腦
美國高性能計算供應商Appro推出了新的Xtreme-Cool超級電腦,特點是有一個高效節能的設計,其沒有使用冷凍機,而是用溫水液體冷卻換熱器。 該公司將于下周在鹽湖城舉辦的SC12活動中展示該系統。
這個Xtreme-Cool超級電腦是由通常安裝在集群中的刀片節點組成的。 安裝在節點上的液體冷卻連接到冷卻劑分佈單元(CDU)通過管道與drip-free快速連接。 洩漏檢測和預防系統中集成在系統中作為一個額外的保護措施。 並且還提供整合的遠端電源以及溫度監測和報告。
「Appro的新的Xtreme-Cool超級電腦目的在於正視的全球高性能計算市場,該市場在2011年達到了創紀錄的103億美元,IDC預測到2016年將超過140億美元,」 IDC HPC專案副總裁Earl Joseph表示 ,「Appro的新產品是為滿足客戶需求而設計的,如在較少或沒有沒有空調的資料中心中用溫熱液體冷卻換熱器技術,該技術可直接冷卻與電源和溫度監視軟體相結合的計算處理器和記憶體。 這有可能提高高密度、大規模的集群環境的性價比和TCO」。
使用一個溫度較高的水冷卻系統可以讓你使用的冷水機組更少或根本不使用。
RightScale加入OpenStack 支援Rackspace開放雲
RightScale(一家提供對多個雲平臺統一訪問的公司)今天宣佈正式支援OpenStack專案,並宣佈將支援客戶部署到Rackspace的OpenStack雲。
這一舉措代表了OpenStack專案的進一步發展。
RightScale公司首席執行官Michael Crandell說:「企業在OpenStack上的興趣正在不斷增加。 」他表示,Rackspace的開源雲與OpenStack 主幹代碼密切對應,最大限度減少了專有的擴展。
RightScale已經是一個集成各種各樣公有雲和私有雲的平臺,其中包括AWS、Windows Azure、Google Compute Engine、Datapipe、HP、Logicworks、SoftLayer和Tata。 在私有雲方面,RightScale可以用來在OpenStack、CloudStac和Eucalyptus平臺管理工作負載,所有這些都是開源的。
VMware發佈Cloud Foundry微型版本
雲中的一切似乎變得更大或更小。 VMware目前走了微型路線,發佈了該公司Cloud Foundry的一個微型版本。
微型Cloud Foundry可以將它部署在單個虛擬機器上。 在其博客文章中,VMware說這是開發人員想要測試仍處於開發階段的應用程式的理想選擇。
雲供應商似乎在不斷的調整自己的產品,以擴大他們的產品群組。 最簡單的方法是在現有產品的基礎上添加容量,或者把產品細分為更小的、獨立的小塊。 VMware採取了後一種方式。
相比之下,亞馬遜網路服務最近宣佈為它的雲服務推出兩款新類型的虛擬機器實例,兩者都是高輸入/輸出版本,為其廣受歡迎的彈性雲計算(EC2)提供。 當時,獨立分析師Paul Burns指出,增加現有產品的功能,企業不僅可以像亞馬遜這樣擁有更多的產品,而且它可以讓客戶有更符合他們計算需求的實例類型。
VMware表示,微型Cloud Foundry將會和常規的Cloud Foundry有相同的特性和功能,唯一的限制是它將運行在單個VM上。 除了今天宣佈的微型版本,VMware還宣佈新功能會隨著微型Cloud Foundry版的發佈而到來。 這些功能包括支援獨立的應用程式,並增加對Ruby、JAVA和node.js等各種程式設計語言的支援。