隨著大資料被更多的企業採用,大資料處理分析演算法編寫和生產語言也得到了廣泛的關注。 而在不知不覺中,開源統計語言R已基本成為大資料科學家和開發者的必備技能。 在所有程式設計語言和技巧中,人氣急劇上升。
以下為譯文
通過與大資料處理工具整合,R提供了大資料集的深度統計能力,包括統計分析以及資料驅動的視覺化等。 而在金融、藥物、媒體及銷售這些可直接從資料中獲取決策的行業中,R更得到了深度應用。
根據Rexer Analytics 2013年對資料採礦專業人員的調查顯示,R已經成為當下最流行的統計分析工具,至少有70%被調查者表示有使用過R語言。 而在企業市場,R的受歡迎程度同樣如此,多個公司和專案都使用R,並將其提供給大資料科學家和企業用戶,其中包括了微軟的雲計算Azure Machine Learning、IBM的Big R、Teradata Aster R、 Oracle R Enterprise、PivotalR的Big Data R發行版本、SAP的R for HANA等,下面做簡要分析:
搭載了R的Azure Machine Learning。 微軟在Azure ML中提供了R語言的API和範本,支援了300多個使用R語言的包,同時使用者不用從頭做起,Azure ML允許開發者使用已有的部分來組裝適合自己需求的模型。 這樣做無疑降低了機器學習的使用門檻,讓各種背景的資料科學家都可以使用。
IBM InfoSphere BigInsights Big R。 Big R是一組功能庫,提供了終端到終端的R與InfoSphere BigInsights集成。 Big R可以被用於InfoSphere BigInsights伺服器上的資料綜合分析,降低親自編寫MapReduce作業的複雜性,讓使用者回歸常見的R語法和範例。
Teradata Aster R。 Teradata Aster R,通過放寬記憶體和處理能力限制條件,擴展開源R語言分析能力。 針對R語言分析師,Aster R開發出他們熟悉的R語言和工具,並提供強大的處理能力及豐富的分析方法,其主要分為3個元件:「Aster R Library」預置100余種R語言功能;「 Aster R Parallel Constructor」擁有超過5500個R語言分析工具組;「 Aster SNAP Framework集成」將開源R語言引擎完全整合至Teradata Aster無縫網路分析處理框架。
Oracle R Enterprise。 Oracle R Enterprise主要提供了該公司RDBMS以及Exadata設備的in-database分析能力。
PivotalR。 PivotalR是一個允許R使用者與Pivotal (Greenplum)Database以及Pivotal HD(用於大資料處理分析)交互的包,在類似R的介面為數據科學家提供in-database和in-Hadoop計算。 HAWQ是Pivotal HD Hadoop技術的核心,通過支援R語言,提供了Dynamic Pipelining、世界級的查詢最佳化工具、縱向擴展、SQL依從、互動式查詢、深度分析以及常用的Hadoop格式。
SAP將R與HANA集合。 SAP整合了R語言和他們的記憶體資料庫HANA,形成一個服務于移動、分析、資料服務和雲整合服務的新平臺,SAP通過Rserve(與R Server的通信器)實現了這個功能。 因為使用了列存儲,HANA能夠與R效率的交換資料,SAP通過預封裝快速部署解決方案來簡化使用者的操作。
原文連結:HTTP://dataunion.org/?p=678