從大資料中挖掘業務價值

來源:互聯網
上載者:User

無論是在公共領域還是私有領域,組織機構和企業都在收集和分析「大資料」,以便更準確地預測市場動向,制定更加明智的決策以確保成功。 他們對來自各種管道的大量資料進行分類,包括天氣預報、經濟報告、論壇、新聞網站、社交網路、wiki、tweet 和博客等,然後對相關資料進一步分析,以便從全新的角度去瞭解其客戶、運營狀況和競爭對手。 一些企業甚至運用預測性分析方法來確定未來一個月、一年甚至五年內可能遇到的機遇和風險。

然而,大資料帶來的不僅僅全是機遇,而且還包括挑戰。 傳統的商業智慧(BI)基礎架構無法處理當前數量龐大、種類多樣且增長迅速的資料流程。 運行在英特爾® 架構上的 Apache Hadoop* 可提供一款價格經濟、功能強大且具備大規模擴展能力的基礎架構,它能夠導入和存儲大資料並將其用於分析。 這款解決方案為您實現目標價值奠定了堅實的基礎,並且能夠在基本不受限制的情況下進行擴展以滿足增長需求。

打破傳統 ETL 的限制

今天的商業智慧系統可使用多種成熟的技術將原始資料轉化為有用的商業資訊,如連線線上分析處理(OLAP)、資料採掘、流程採掘、複雜事件處理、企業績效管理、預測性分析和指定分析。 但是,在分析大資料之前,您必須先從外部資源中對其進行提取並轉換以符合操作需求,然後將其載入到適當的分析環境中—這一套流程被稱為「擷取、轉換和下載(ETL)」。

大資料一般會使傳統的 ETL 基礎架構不堪重負。 入站資料流程太大且增長速度太快,無法在可接受的時間段內進行處理。 此外,資料的種類多樣也是一個挑戰。 大資料來自各種不同的管道,如文字文件、圖片、音訊、視頻、運行日誌和感應器。 這些非結構化資料類型不太適合傳統的關聯式資料庫。

Apache Hadoop 可為應對 ETL 挑戰提供一種解決方案。 谷歌針對其廣受歡迎的搜尋引擎開發了相應的技術,借助這項技術,該款開源軟體可在配置商用存放裝置的可擴展工業標準伺服器集群上運行。 通過分散式存儲和大規模並行處理,Apache Hadoop 集群具備出色的擴展能力,能夠處理數 PB 的聚合結構化 資料。

合理規劃 ETL 基礎架構以獲得更高的效率

ETL 工作負載不斷變化,因此精心設計的 Apache Hadoop 集群對於以最經濟的方式實現性能目標至關重要。 英特爾架構可提供多種選擇,助您實施最適合的解決方案。

• 為主流 ETL 工作負載提供經濟的高性能。 從成本效益角度而言,基於英特爾® 至強™ 處理器 E5 家族的雙插槽伺服器是大部分Apache Hadoop 工作負載的最佳選擇。 這些伺服器可提供更高的性能,且相比大規模的多處理器平臺能夠為分散式運算環境帶來更高的效率。 此外,相比更小的單插槽伺服器,它們能夠提供更高效的負載平衡和並行吞吐率。

• 針對輕型 ETL 工作負載的更好的成本模式。 一些 ETL 工作負載(簡單資料分類)無法充分利用英特爾至強處理器的處理能力。 一般情況下,您可以在基於最新英特爾® 淩動™ 處理器的微伺服器上更高效地運行這種輕型工作負載。 這些伺服器級別的處理器的功耗僅為 6 瓦,可為處理需求較低的應用提供高效的新資料中心效率。

英特爾至強處理器和英特爾淩動處理器均支援 ECC 記憶體,因而能夠自動檢測和糾正記憶體錯誤。 記憶體錯誤是資料中心中出現資料損壞和伺服器停機的主要原因之一,而精心設計的 Apache Hadoop 集群擁有大量記憶體(一般每台伺服器上有 64 GB 或更大的記憶體),這會增加出現錯誤的風險,因此 ECC 記憶體便成為不可或缺的功能。

使用 Hadoop 卸載 ETL

使用 Apache Hadoop*,機構能夠大規模地導入、處理和輸出種類不同的資料。

在一個 Apache Hadoop 集群中,存儲性能與處理能力一樣重要。 標準機械硬碟只有在數量足夠多的情況下才能夠滿足大量工作負載的處理需求。 英特爾® 固態盤(英特爾® SSD)可在更短的延遲下提供更高的吞吐率。 英特爾測試顯示,使用英特爾 SSD 替換機械硬碟最高能夠將集群性能提高 80%。

此外,網路性能對於確保大型資料集的高效導入、處理和匯出也十分關鍵。 英特爾可提供經濟的高頻寬萬兆乙太網(10 GbE)伺服器配接器,助您輕鬆進行擴展,為集群增長提供支援。 隨著集群繼續擴展,您可以將多台 10 GbE 交換器和上行鏈路連接至更快的網路基礎架構。

降低您的運營成本

據 Gartner 于 2007、2010 和 2013 年進行的 CIO 調查,超過 70% 的CIO 認為不斷增長的功耗和散熱要求是其面臨的最大的資料中心挑戰。 2 英特爾至強處理器、英特爾淩動處理器和英特爾 SSD 的卓越能效有助於降低資料中心的負載和預算。 此外,英特爾可提供先進的功耗和散熱管理應用,即英特爾® 資料中心管理器(英特爾®DCM)。 英特爾 DCM 可使用英特爾® 處理器中內建的公用程式。 您可以用它來監控個各個層面(從單獨的伺服器到整個設施)的功耗,從而最大限度地降低功耗而不影響性能。

降低您的風險

開源 Apache Hadoop 軟體可從 Apache 軟體基金會免費獲取。 此外,增強型軟體發行版本也可從英特爾等增值分銷商處免費獲取。 這些增強型發行版本可提供額外的功能、服務和支援包,有助於簡化實施並降低風險。

Apache Hadoop 軟體英特爾® 發行版本是一款包括 Apache Hadoop 及其他元件,以及英特爾提供的增強和修復功能的開源產品。 該軟體針對最新的英特爾至強處理器、英特爾 SSD 存放裝置和英特爾® 10 GbE 網路介面卡進行了高度優化。 測試顯示,聯合平臺的性能比運行在優化程度較低的硬體平臺上的通用 Apache Hadoop 軟體高 30 倍。

英特爾發行版本可針對主要的企業要求提供集成支援,包括:

• 資料保密性。 硬體加速的加密和精細的控制支援您安全集成敏感資料類型,而不影響安全性、合規性或性能。

• 可擴充性和可用性。 多網站擴充性和自我調整資料複製可簡化集成,且可確保您能夠隨時訪問關鍵資料並獲得洞察力。

• 高級分析。 Intel® Graph Builder 以及對 R(可用於執行靜態分析的開源應用)的集成支援可説明資料分析人員和開發人員從大資料中獲得更高的價值。

• 服務、支援和培訓。 英特爾可提供大量線上培訓資源,並可提供專業的支援服務,以便對基於英特爾發行版本的 Apache Hadoop部署進行規劃、實施和維護。

結論

大資料為各個行業帶來全新的業務機遇和挑戰。 資料整合(將社交媒體和其他鬆散的資料整合到傳統的商業智慧環境中)的挑戰是 CIO 和 IT 管理人員所面臨最緊迫的問題。 Apache Hadoop 可提供經濟且可大規模擴展的平臺,以便輕鬆導入大資料並將其用於分析。 使用 Hadoop 卸載傳統 ETL 流程可將分析時間減少數小時甚至數日。

高效運行 Hadoop 集群需要選擇最佳的伺服器、存儲、網路和軟體基礎架構。 英特爾可提供軟體和硬體平臺元件,説明您設計和部署針對大資料 ETL 優化的高效的、高性能 Hadoop 集群。 此外,英特爾提供了豐富的參考架構、培訓、專業服務和技術支援,可説明您加速部署並降低風險。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.