當今,一些最成功的公司通過捕捉、分析和利用大量各式各樣、快速移動的「大資料」獲得了強大的業務優勢。 本文介紹了三種使用模型,可説明您實施靈活、高效的大資料基礎設施,以獲得自身業務的競爭優勢。 本文還描述了英特爾在晶片、系統和軟體領域的多項創新,可説明您以最佳的性能、成本和能效來部署這些和其他大資料解決方案。
大資料機遇
人們常將大資料比作海嘯。 當前,全球五十億手機使用者和近十億的 Facebook* 與 Skype*使用者正在生成規模空前的資料,而這些使用者只占全球線民人數的一小部分。 英特爾估計,2012 年流經雲中的資料總量超過了 1,500 EB,即 1,5000 億 GB。 與此形成鮮明對比的是,整個人類歷史中所說話語的總量估計僅約 5 EB。 然而,大資料的洪峰還未到來。 目前,我們正在快速遷移至「物聯網」,企業、家庭、汽車和公共場所中數量龐大的聯網感應器正在生成幾乎無法估量的資料量(圖 1)。 然而,將大資料比作海嘯忽略了最重要的一點。
截至 2020 年的指數級增長趨勢
圖 1. 當前和預測的大資料增長率。 資料來源:Philippe Botteri of Accel Partners,2013 年 2 月。
雖然海嘯極具破壞性,但大資料卻擁有巨大的潛在價值。 借助正確的工具和戰略,企業可從大資料中有所領悟,説明自身實現強大競爭優勢。 目前,許多公共和私營組織已經在這麼做了。
• 零售商以前所未有的規模和精度即時分析社交媒體趨勢,以便為最有可能的買家提供最熱門的產品。
• 金融公司分析信用卡交易、帳單支付和銀行帳戶活動,以即時檢測和防止欺詐行為,並提高丟失資金的找回概率。
• 內容提供者即時分析使用者的選擇,以便向使用者推薦相關內容並提供新的產品和服務,以此提高收入和客戶滿意度。
• 城市使用大資料來預測並緩解交通擁堵狀況,並避免進行昂貴的道路擴建。
• 公用事業通過即時監控能源使用狀況來實現其能源網路的負載平衡,以便更加高效、可靠地輸出功率並避免增建大型基礎設施。
如要利用大資料獲得這些優勢,需採用新的資料管理方法。 大資料不同于傳統的商務資訊。 雖然交易資料也是其中的一部分,但大資料具備多結構化和快速移動的特性,且其數量可能會遠超您的基礎設施的處理範圍。
• 大資料以 PB 而非 TB 計算,因而遠遠超出傳統的業務資料。
• 大資料包含多種不同格式的結構化和非結構化內容,如電子郵件、社交媒體、視頻、圖像、博客、感應器資料和「影子資料」(如訪問日誌和 Web 搜索歷史記錄等),以及許多其他類型資料。
• 大資料不斷動態生成,暫態洞察可改善即時業務場景的結果。
雖然批量分析仍發揮著重要重要,但來自現場或流資料的按需查詢則擁有巨大的潛力。
由於大資料的價值蘊藏在大量複雜、快速移動的內容中,因此,獲得有意義的洞察通常需要廣泛的挖掘和深入的分析,其廣度和深度遠超傳統的商業智慧(BI)查詢和報告。 利用機器學習、統計建模、圖形演算法以及其他新興技術可以挖掘出隨時可用的重要內容,從而為企業提供顯著的競爭優勢。
從大資料中提取業務價值
本文探討了從大資料中提取價值的三種使用模型。 這三種使用模型適用于各種不同的組織。 每種使用模型都建立在前者基礎之上,旨在提供更高的價值。
• 使用模型 1 — 擷取、轉換和下載(ETL)。 ETL 在分析資料之前,必須先執行收集和預處理操作,並將資料存儲在資料庫中。 但傳統的 ETL 工具和戰略可能無法滿足大資料的需求。 Apache Hadoop* 為解決這一挑戰提供了一種經濟高效的方法。
• 使用模型 2 — 互動式查詢。 最新的技術創新極大提高了傳統資料倉儲模型的性能和可擴充性。 借助這些改進,即時分析可以在規模更大、更多樣化的資料集上運行,以擴展現有 BI 投資的價值,並更有效地與全新大資料解決方案(如 Hadoop 等)相集成。
• 使用模型 3 — 預測分析。 全新的分析技術不單包括資料採礦和視覺化,通過對所有可用資料,包括來自外部來源的即時資料流進行分析,不僅能夠確定已發生事情的情況及原因,還能預測可能會發生的事情。 最後一種使用模型構建于前兩者基礎之上,旨在創建一個更加統一、可擴展的分析環境。
使用模型 1 — 採用 Apache Hadoop*的 ETL
與傳統資料相類似,大資料必須從外部來源中提取並轉換成滿足業務需求的結構,之後再載入到資料庫中進行存儲和管理。 由於傳統的 ETL 解決方案無法滿足多結構化資料的需求,因此 Hadoop軟體成為了滿足這一需求的最佳平臺(圖 2)。
Hadoop 集群的分散式存儲和處理環境非常適合大資料 ETL。
Hadoop 首先將傳入的資料流程分成碎片,然後通過簡單的平行作業快速處理海量資料。 該軟體支援所有類型的資料,並可在數十、數百甚至數千台伺服器間運行,以提供強大的可擴充性。 Hadoop 分散式檔案系統(HDFS)將結果存儲在低成本存放裝置(直接連接至集群中的每一台伺服器)中,以供立即上傳至企業資料倉儲或非結構化資料存儲中。
Hadoop 可處理多結構化的分析資料,即使資料未被預定義也不受影響。 換句話說,Hadoop 支援 Schema on Read 模式,這與傳統 ETL流程應用的 Schema on Write 模式截然相反。 這使得 Hadoop 能夠在短時間內載入大量資料,以確保資料能夠快速用於分析、視覺化和其他用途。
基礎設施注意事項
基於英特爾® 至強® 處理器 E5 系列的雙路伺服器為大多數 Hadoop部署提供了容量與成本的最佳平衡。 與上一代伺服器相比,這些伺服器提供了更多的內核、快取記憶體和記憶體容量。 此外,它們還將I/O 頻寬提升多至兩倍,同時將 I/O 延遲降低了 30%。 1 這些資源為並存執行更多的資料密集型任務提供了高輸送量。
輕量型 I/O 綁定工作負載(如簡單的資料排序操作等)可能無需英特爾® 至強® 處理器 E5 系列的全部處理能力。 此類工作負載可經濟地運行在基於英特爾® 至強® 處理器 E3 系列的高密度、低功耗伺服器上,或者基於英特爾® 淩動™ 處理器的系統晶片(英特爾®淩動™ SoC)上。 憑藉低至 6 瓦的耗電量,基於 64 位 x86 架構的英特爾® 淩動® 系統晶片在伺服器級處理器中提供了前所未有的密度和能效。
使用 Hadoop 卸載 ETL
圖 2. 通過使用 Apache Hadoop*,您可以大規模提取、處理和匯出大量多樣的資料。
Hadoop 集群中的所有伺服器需要大量記憶體和相對大量的存儲磁碟機來滿足資料密集型 Hadoop 工作負載的需求。 還需要足夠的記憶體來提供高輸送量,以執行多個平行作業。 多個存儲磁碟機(每內核兩個或兩個以上)提供了所需的聚合 I/O 輸送量,以避免產生存儲瓶頸。 通過在每個伺服器節點中配備至少一塊英特爾® 固態硬碟(英特爾® SSD),存儲性能得以顯著提升。
通過在靠近資料存儲位置的地方處理資料,Hadoop 極大降低了對大容量資料移動的需求。 然而,快速資料導入和匯出需要足夠的網路頻寬。 在大多數情況下,每個伺服器機架應使用萬兆乙太網(10 GbE)交換器,每台機架級交換器應與一台 40 GbE 集群級交換器相連接。 隨著資料量、工作負載和集群的不斷增長,可能需要互聯多台集群級交換器,甚至需要上行傳輸至更高級別的交換基礎設施。
如欲瞭解更多詳細資訊,請參閱發佈在 software.intel.com 網站英特爾開發人員專區的英特爾白皮書:使用 Apache Hadoop* 擷取、轉換和下載(ETL)大資料。
使用模型 2 — 互動式查詢
資料倉儲為業務資料和 BI 功能(如線上分析處理(OLAP)和資料視覺化等)提供了中央存儲庫。 新資料和歷史資料從不同來源收集得來,並將用於互動式查詢和其他類型的分析。
傳統資料倉儲的功能和資源可能無法滿足大資料的需求,因此,各廠商已通過改進性能與可擴充性來應對這一問題。 例如:
• 記憶體資料庫消除由於在伺服器和存儲系統之間來回傳輸資料造成的延遲和開銷。 該方法將資料存取時間從幾毫秒縮短至幾納秒,從而消除了阻礙資料庫性能幾十年的瓶頸。 Oracle TimesTen、* SAP HANA*、Microsoft IMUB*、IBM solidDB*、VMware vFabric SQLFire* 以及許多開源解決方案均使用該戰略來加速傳入資料流程的處理和管理。
• 資料倉儲設備將伺服器、存儲、作業系統、資料庫管理系統和支援元件整合至預先構建、高度優化的交鑰匙系統中,以簡化集成並顯著提高性能。 許多資料倉儲設備支援記憶體資料庫,其中有些包含專有資料過濾技術,可加速資料流程。 大多數此類設備均為大規模對稱多處理器(SMP)系統,或者大規模並行處理(MPP)可擴展刀片伺服器系統。 現成實例包括 IBM Netezza*、HP EUW Appliance*、Oracle Exadata*、Teradata UW 設備*、Dell Parallel UW*和 Pivotal (原 EMC Greenplum)資料計算裝置* 等。
企業如要尋求部署功能強大、經濟高效的大資料平臺,應考慮將大規模 SQL 資料倉儲與 Hadoop 集群相結合。 該集群可快速收集和處理大規模、多樣化、快速移動的資料流程。 之後,合適的資料集可被載入到資料倉儲中,用於特定的 SQL 查詢、分析和報告。 使用者還可以使用相關軟體(如 Apache HBase*、Spark*、Shark*、SAP HANA*、Apache Cassandra*、MongoDB*、Tao*、Neo4J*、Apache Drill*或 Impala* 等)查詢駐留在 Hadoop 集群中的多結構化資料集。 與任一解決方案單獨可實現的結果相比,採用這種混合戰略可獲得更快、更深入的洞察。
無論您目前使用的是傳統資料倉儲,還是專為更大容量和更快資料流程而設計的更現代的系統,均可採用類似的流程:從外部來源收集資料,然後清理並格式化資料,使其符合倉庫資料模型。 該流程可在將資料載入至倉庫之前進行,或者在將流資料來源流輸入倉庫的過程中動態進行。
資料載入完之後,就可以開始進行分析了。 現代的資料倉儲支援臨時查詢功能,因而可利用任何有意義的數值組合進行按需資料訪問。 與之相比,更為傳統的資料倉儲僅能夠基於已知的關係生成預先定義的報告。
基礎設施注意事項
無論您是集成自己的 SQL 資料倉儲解決方案還是評估相關設備,以下注意事項均可説明您顯著優化可擴充性、可靠性和總體擁有成本(TCO)。
在 SQL 資料倉儲中執行的複雜分析通常無法很好地在大量集群節點中進行擴展,因此單台資料倉儲伺服器必須具備高性能和可擴充性特性。 基於英特爾® 至強® 處理器 E7 系列的四路、八路以及更大型的伺服器能夠提供出色的可擴充性能,可用於處理要求苛刻的分析工作負載。 例如,企業資料倉儲設備(包括大規模 SMP和刀片式 MPP 系統等)使用這些處理器來最大限度地提升整體性能和輸送量。 每顆英特爾® 至強® E7 處理器都可提供多至 10 個內核、20 條執行緒和 30 MB 的三級快取記憶體。 這些處理器還可在 8 路伺服器中提供高達 32 GB 的 DIMM 和多至 4 TB 的記憶體總量,因而其記憶體資料庫的容量非常龐大。
由於資料倉儲通常運行在單台伺服器上,因此,系統正常執行時間就顯得尤為重要。 英特爾® 至強® 處理器 E7 系列包括先進的可靠性、可用性和可維護性(RAS)特性,這些特性內置於晶片中,用於支援關鍵業務級別的可靠性和保護資料。 所有關鍵互聯、資料存儲、資料路徑和子系統均集成了主動和被動錯誤監控功能。
自我修復功能可主動和被動修復已知的錯誤,通過基於可配置的錯誤閾值進行自動修復,還可減少將來發生錯誤的可能性。 英特爾與硬體、作業系統、虛擬機器監視器(VMM)和應用廠商展開了廣泛合作,以説明確保整個硬體與軟體堆疊的緊密集成。
隨著資料量的迅速增加,借助各種全新戰略,企業可同時在資料倉儲的內部和外部更加經濟高效地擴展資料存儲容量。 以下戰略可配合使用,以較低的總體成本滿足多樣化的需求。
• 橫向擴展存儲架構提供價格適中的超大容量,並支援跨私有雲和混合雲的聯合。 這些解決方案可動態擴展,因而能夠比傳統存儲系統更快地進行部署。 它們還可説明提高資料管理效率。
• 低延遲,臨近存儲非常適合資料密集型應用,在與資料存放裝置共處同地點時能夠更好地運行。 實例包括業務流程、決策支援分析和高性能計算工作負載,以及在虛擬化伺服器上運行的協作流程、應用和 Web 基礎設施。
• 集中式存儲在存放區域網路(SANs)聚合為邏輯池,可支援高性能的業務資料庫。 當針對低成本容量而非高性能進行優化時,集中式解決方案可為備份、歸檔和物件存儲需求提供高效的存儲。
更高的存儲效率可説明在應對快速增長的資料時控制成本。 許多存儲廠商都將英特爾® 至強® 處理器集成至各自的存儲解決方案中,以支援高級資料管理功能,説明大幅提高效率。 據 IDC 在 2013 年 6 月發佈的《全球存儲與虛擬化 x86 環境 2013-2017 預測》統計,全球約 80% 的面向企業、雲和高性能計算(HPC)的企業級解決方案均運行于英特爾架構之上。 支援資料效率技術的存儲平臺包括:
• 重復資料刪除以節約容量。
• 資料壓縮以增加輸送量。
• 自動精簡佈建以提高利用率,基於專案需求按需供應存儲,而非過度供應容量。
• 智慧分層以優化性能與成本,自動將「熱」資料移轉至速度更快的存放裝置,而將「冷」資料移轉至容量更高、成本更低的磁碟機。 借助這種方法,少數高速磁碟機(如英特爾® SSD 710 系列SATA 等)能夠以相對較低的成本提供更高的性能。
快速、高效地將資料集載入至資料倉儲可説明分析應用及時提供業務洞察。 該解決方案由兩部分構成,其中一部分是高效 ETL 處理,另一部分是快速、高效的網路,從而將不斷增長的分析業務價值擴展到整個企業。 英特爾® 乙太網產品集成了多項相關技術以滿足這些需求。
• 虛擬化環境中近乎本機性能。 虛擬化可提高基礎設施的靈活性和利用率,這對在實現大資料解決方案增長的同時控制成本而言非常重要。 英特爾® 虛擬化連接技術(英特爾® VT-c)可説明減少 I/O 瓶頸,提高伺服器在虛擬化環境中的整體性能。 其虛擬機器設備佇列(VMDQ)技術可卸載流量分類並路由到網路介面卡的專用晶片中。 借助 PCI-SIG 單根 I/O 虛擬化(SR-IOV)技術,單個英特爾® 乙太網伺服器配接器埠可支援多條到虛擬機器的獨立連接。
• 10 GbE 統一網路。 將資料中心流量整合至單一、高頻寬網路中有助於降低成本和複雜性,並可提供所需的性能和可擴充性,滿足快速增長的需求。 英特爾乙太網融合網路介面卡支援乙太網光纖通道(FCoE)和 iSCSI,以便在整合局域網(LAN)流量和存放區域網路(SAN)流量時簡化實施並降低成本。
• 更簡單、更快速地連接至 iSCSI SANs。 英特爾乙太網融合網路介面卡和英特爾乙太網伺服器配接器提供基於硬體的 iSCSI 加速來提高性能。 它們還充分利用集成至領先作業系統的本機 iSCSI啟動器,以簡化本機和虛擬化網路中的 iSCSI 部署和配置。
使用模型 3 — 基於 Hadoop 平臺的
預測分析
預測分析通過從過去的事件中捕捉關係並利用這些關係預測未來結果,以從資料中獲取更高價值(圖 3)。 通過使用預測分析,零售商可為個人客戶提供更具吸引力的產品,醫療機構能夠選擇最合適的治療方案,金融服務中心則可增加投資回報和降低風險。 雖然預測分析可説明制定戰略業務計畫,但其最大的價值可能來自于決策制定時的策略指導和決策執行時的運營指導。 由資料科學家、資料庫管理員和軟體發展人員組成的中央團隊共同協作,為最關鍵的業務運營提供定制的解決方案。 隨著企業越來越廣泛地將這一功能集成至各自的業務中,他們必須為範圍更廣泛的優化和自動化系統提供優化的決策工具。
預測分析分為兩大類:迴歸分析和機器學習。
• 迴歸分析技術通過比較當前資料與歷史模型來預測最可能發生的結果。
• 機器學習採用人工智慧技術,只需很少或無需人工干預。 該系統通過分析代表性資料集來提取關係並加以概括,從而基於新的資料進行預測。 光學字元辨識(OCR)就是一個典型實例,但新應用將在更廣泛的場景中發掘大資料的價值。
英特爾 IT 部門于 2010 年開始了開拓性的大資料分析工作,並建議將本文中討論過的兩種使用模型相結合使用,創建一個混合分析基礎設施(圖 4)。
1. 基於 MPP 架構部署資料倉儲設備,以針對大型資料集快速執行複雜的預測分析。 許多廠商已將英特爾® 至強® 處理器 E7 系列集成至刀片式伺服器設備中,旨在以相對較低的成本提供所需的性能。 這些系統適用于現有的企業 BI 解決方案,並為先進的分析工具和應用提供集成支援,如 R,這是一種在資料科學家中非常流行的開源統計計算語言。
2. 為資料倉儲添加 Hadoop 集群,以實現快速、可擴展且價格適中的 ETL。 Hadoop 還運行其他資料處理與分析功能,該功能可在分散式處理環境中順暢地運行。 Hadoop 生態系統提供了不斷擴展的各種工具和元件以滿足這些需求。
基礎設施注意事項
為了提供最大的靈活性,資料倉儲和 Hadoop 集群應使用高速資料載入器,並使用 10 GbE 或另一種高頻寬網路技術連接在一起。 這使您能夠在兩種環境之間快速遷移資料,以便您基於特定資料類型、工作負載和業務需求使用最高效的分析技術。
預測分析的業務價值
圖 3. 根據 Gartner 的報告顯示,隨著重心從後見之明轉移到先見之明,分析的難度和業務價值同時增加。
英特爾 IT 部門的大資料分析混合平臺
圖 4. 英特爾 IT 部門的大資料平臺通過使用高速資料載入器連接大規模並行處理(MPP)資料倉儲設備與運行 Hadoop 軟體的行業標準伺服器集群,為分析(包括預測分析)提供了一個靈活的基礎。
為大資料分析創建一個更好的基礎
隨著大資料技術和解決方案的進步,英特爾產品與技術可説明加速整個生態系統的創新。 通過與硬體、軟體和服務提供者協同合作以確保提供廣泛的支援,英特爾可説明企業更加輕鬆、經濟地將這些新功能集成至基於標準、互聯、託管且安全的架構中。
處理器的性能進步
英特爾處理器的進步為下一代大資料解決方案提供了不斷提高的性能和價值。 每執行緒性能、並存執行、I/O 輸送量、記憶體容量和能效方面的不斷改進説明企業利用經濟、主流的計算系統滿足快速增長的需求。
全新工具和優化軟體
英特爾既可獨立工作,又可與領先的軟體廠商和開源社區協同工作,以便為大資料分析提供優化的軟體堆疊和服務。 這些努力有助於在整個大資料生態系統中提供全新高級功能。 它們還可確保為在英特爾架構上運行的大資料應用提供最佳性能。
英特爾還提供軟體產品,説明滿足大資料生態系統中一些最關鍵的需求。
• 面向 Hadoop 集群和應用的性能指標評測。 英特爾® HiBench 套件包括 10 項性能指標評測,用於 IT 組織和軟體廠商測量特定常見任務(如排序和字數統計等)和更複雜的現實功能(如 Web 搜索、機器學習和資料分析等)的性能。 英特爾工程師使用英特爾®HiBench 套件,説明實施面向英特爾® 架構的上游 Hadoop 優化,以及面向 Hadoop 的 JAVA* 優化。
實施大資料分析
英特爾正在將預測性大資料分析集成至其現有的商業智慧(BI)環境中,以説明提高業務效率和性能。 英特爾 IT 部門正聯合業務事業部進行一些大資料概念驗證部署。 當前的重點領域包括惡意軟體檢測、晶片設計驗證、市場情報和推薦系統。
• 企業就緒型 Hadoop 發行版本。 英特爾® 發行版本 Hadoop 在套裝軟體中提供了最新的英特爾架構優化,可簡化部署並支援企業級安全與可管理性需求。 許多優化將首先應用於英特爾® 發行版本,隨後會被提交到開源 Apache Hadoop 專案。
• 快速、大規模可擴展的分散式檔案系統。 英特爾® Luster 存儲軟體是 Lustre* 分散式檔案系統的英特爾優化發行版本,可支援大規模集群計算。 該軟體可擴展支援數以萬計的用戶端系統和幾十PB 的存儲,提供每秒超過 1 TB 的聚合 I/O 輸送量。
先進的電源管理助力降低運營成本
對於大多陣列織而言,存儲和分析大資料需要大量的基礎設施建設,這就需要管理能耗以控制總成本。 英特爾® 至強® 處理器和英特爾® 淩動® 系統晶片的能效功能可説明解決這一問題。 無論您選擇哪一種,該軟體均可支援英特爾® 至強® 處理器和英特爾®淩動® 處理器系列,且無需重新編譯,以説明您避免管理多個架構和代碼庫的複雜性。
英特爾提供各種工具,説明您更有效地管理功耗。
• 高效的資料中心電源管理。 英特爾資料中心管理器(英特爾®DCM)可部署至現有的管理主控台,並將充分利用英特爾處理器內置的測量技術來提供先進的電源與散熱管理,從單台伺服器與刀片到機架、機架列和整個資料中心。
• Linux* 環境中集成的能耗管理。 由英特爾開發的運行平均功耗限制(RAPL)Linux 內核軟體驅動程式為英特爾® 至強® 處理器 E5系列的功耗監控、管理和限制提供了強大支援。
結論
無論企業來自哪個行業,只要具備從所有來源捕捉、存儲和分析資料的能力,即可獲得強大競爭優勢;但大資料海嘯卻帶來了更為複雜的全新基礎設施挑戰。 本文提及的三種使用模型可指導企業將大資料轉化為業務價值。
• 部署 Hadoop 以攝取大資料並進行分析準備。
• 將您的 Hadoop 集群連接至快速、可擴展的資料倉儲,以獲得支援混合資料的互動式查詢功能。
• 添加預測性分析和機器學習應用,以做出準確的預測並即時採取行動。
英特爾在晶片和軟體領域的多項創新提供了多方面優化和有針對性的功能,可説明您更加輕鬆、高效地實施這些以及其他大資料使用模型。