來源:互聯網
上載者:User
關鍵字
可以
可以
通過
可以
通過
抓取
可以
通過
抓取
大資料分析
可以
通過
抓取
大資料分析
這種
近日,Precog宣佈了他們的大資料倉儲和分析服務,該服務負責處理資料的抓取、變換分析和視覺化等過程,以及服務運行所基於的基礎架構。 不過,這一服務也通過RESTful API預留了各種開放的訪問點,支援開發者和資料科學家控制整個過程。
Precog可以從各種資料來源抓取輸入資料,其中包括SQL資料庫、Amazon S3、Hadoop、MongoDB、用戶端Web應用和後端伺服器等。 RESTful API支援開發者從外部源(如Twitter或Facebook)、CSV檔或行動裝置抓取資料。 抓取的資料保存到一個叫做PrecogDB的定制資料庫中,而且我們還可以使用人群統計、態度、位置和其他資訊使資料更為豐富。
之後,資料可以通過多種手段加以分析,比如通過一個API,或是利用客戶庫(JavaScript,PHP),或者使用Labcoat(一種支援使用Quirrel這種聲明式查詢語言進行資料分析的IDE)。 開發者可以創建自己的資料抓取、強化和分析模組,甚至可以將這些模組拿到市場上銷售。
Precog能夠將整個過程運行在不同的雲供應商之上——如Amazon EC2和SoftLayer——以便增加系統的彈性和正常執行時間。
在InfoQ進行的一次採訪中,Precog的CEO和創始人John A. De Goes解釋到:
「(系統的)架構與資料庫分析有些相似,比如都包括面向列的存儲;但是其區別在於,前者支援完全異構的、非正常化的資料,通過對Quirrel的支援,相對於使用RDBMS進行分析,使用這種類似于「面向大資料的R」的語言, 你能夠很方便地執行很多更為高級的計算。 」
PrecogDB是該平臺的核心,它是一種用Scala編寫的、面向列的資料庫,運行在JVM上,它也為數據捕獲和分析進行了優化。 據De Goes介紹,PrecogDB中可以保存「測量資料,如點擊、購買、尺寸、Twitter資料,或是收集自其他各種活動的日誌資訊」。 他還補充道,「Precog尚不能存儲大塊的非結構化資料,儘管在生物資訊學和其他一些領域的應用的確有這種需求。 不過這一功能已經在我們的路線圖上了。 」
至於Quirrel——這種由Precog實現的統計查詢語言,De Goes談到:「Quirrel很多方面都與R程式設計語言比較相似。 像R一樣,Quirrel也是為高級的分析與統計而設計的。 但與R不同的是,Quirrel並非圖靈完備的語言,它是純聲明式的,利用它更容易高效地在大規模集群的機器中分發Quirrel查詢(這也使Quirrel比R更容易學習)。 」
PrecogDB有一些「用於常見的分析與統計計算的內置常式」,它還提供了一個「細細微性的、基於能力的安全模型,支援來自行動裝置或Web的應用程式通過RESTAPI直接存取其功能」。
譯者 臧秀濤 查看英文原文:Precog: Big Data Analytics as a Service
(責任編輯:蒙遺善)