Hadoop平臺管理的大資料建立索引的方法和指南

來源:互聯網
上載者:User

具體來講,我們將介紹如何將存儲在 IBM 的 InfoSphere® BigInsights™(一個基於 Hadoop 的平臺)中的資料推送到 InfoSphere Data Explorer。 InfoSphere Data Explorer 是一個複雜的工具,支援企業用戶探查並組合來自多個企業和外部資料源的資料。

如果您關注過許多圍繞大資料的早期案例分析,您可能相信 「您根本不知道您不知道什麼」 的說法。 確實,大資料應用程式常常專注于從平時可能出於多種原因而導致被丟棄或忽略的資料中收集業務洞察。 公司越來越多地希望開發一個全面的資訊管理戰略,這個戰略涉及的不僅僅是簡單地探查或分析大資料。 具體來講,他們希望將大資料與現有資料系統(包括關係 DBMS、企業內容管理系統、資料倉儲等)一起整合到其總體資訊管理戰略中。

本文分析該挑戰的一個方面,列出了為大資料和傳統資料來源建立索引的一個架構和方法,還提供了基於 Web 的介面,以發現這些不同資料來源中的新洞察。 具體來講,它描述了 Data Explorer(一個資料發現平臺)如何為 InfoSphere BigInsights 管理的資料建立索引,支援將大資料的持久化格式與現有的企業資料相結合。 Data Explorer 和 BigInsights 都是 IBM 的大資料平臺的重要元件,所以我們首先概述此平臺和這兩個重要產品。

IBM 的大資料平臺概述

IBM 的大資料平臺旨在説明組織探查、分析和管理豐富的資料,包括流資料、傳統業務資料,以及以前很難合併到企業的商業智慧和分析平臺中的 「非傳統」 資料或輔助資料。 首先讓我們簡要瞭解一下這個平臺,然後再重點介紹兩個重要元件:InfoSphere Data Explorer 和 InfoSphere BigInsights。

圖 1 描繪了 IBM 的大資料平臺的架構,它在功能的豐富性上不同于其他商用產品。 從上到下,您會看到 IBM 的這個平臺包含豐富的功能和技術,能夠視覺化和發現各種資料來源中的洞察,開發分析應用程式,管理您的環境。 Data Explorer 提供了 IBM 的大資料平臺的重要視覺化和發現功能,所以稍後我們會更詳細地討論該元件。 圖 1 中所示的加速器是 IBM 提供的工具組,包含數十個預先構建的軟體工件,以説明公司快速部署分析社交媒體和機器資料(比如日誌記錄)的解決方案。 3 個資料處理引擎使組織能夠有效地應對大資料內在的多樣性、大量性和高速性。 這些引擎包含一個基於 Hadoop 的系統(BigInsights,我們稍後將詳細探討它)、一個流計算平臺 (InfoSphere Streams) 和一個資料倉儲平臺(比如 PureData™ for Analytics 或 DB2®)。 最後,IBM 的大資料平臺還包含與其他流行企業軟體的連接,包括關係 DBMS、提取/轉換/載入平臺、商業智慧工具、內容管理系統等。

圖 1. IBM 的大資料平臺架構

InfoSphere BigInsights 概述

InfoSphere BigInsights 是 IBM 持久化和分析眾多形式的大資料的平臺。 基於開源 Apache Hadoop 專案,BigInsights 旨在説明公司發現和分析隱藏在海量資料中的業務洞察,這些資料在平時可能被忽略或丟棄,因為使用傳統方法來處理這些資料有些不切實際或太困難。 這些資料的示例包括日誌記錄、按一下流、社交媒體資料、新聞源、電子郵件、電子感應器輸出,甚至一些交易資料。

為了説明企業高效地從這些類型的資料獲取價值,BigInsights Enterprise Edition 包含一些來自 Hadoop 生態系統的開源專案,以及 IBM 開發的一些增強和擴展了這個開源軟體的價值的技術。 如 圖 2 所示,這些技術涵蓋範圍從應用程式加速器到分析工具、開發工具、平臺改進和企業軟體集成。 例如,BigInsights 客戶可使用複雜的文本分析功能從文檔、電子郵件和消息中提取內容和上下文。 應用程式開發人員可採用基於 Eclipse 的嚮導來加速自訂 JAVA™ MapReduce、Jaql、Hive、Pig 和文本分析應用程式的開發。 管理員可通過一個集成的 Web 主控台管理和監視其 BigInsights 環境,企業用戶可通過基於 Web 的目錄來啟動 IBM 提供的或自行開發的應用程式。

在本文中,我們將重點介紹 BigInsights 特性的一個子集,比如文本分析和應用程式生命週期工具。

圖 2. InfoSphere BigInsights 架構

InfoSphere Data Explorer 概述

InfoSphere Data Explorer 允許您為來自不同資料來源的大量結構化、非結構化和半結構化資料建立索引。 它還提供了構建大資料探查應用程式和 360 度資訊應用程式的能力。 InfoSphere Data Explorer 允許使用者根據存儲在不同的內部和外部資料存儲庫中的龐大資料集合,創建不同實體(比如客戶、產品、事件、合作夥伴等)的相關資訊的視圖,而無需移動資料。

當今企業的一個重要挑戰是,使用者無法快速找到解決業務問題或完成一項任務所需的資訊。 通常,資料分散在不同的系統中,以便支援不同組織管理的具體應用程式。 此外,新資料來源逐漸成為關鍵的資源,人們可能需要在日常工作和制定重要決策時考慮它們,比如社交媒體、來自行動裝置的源、Twitter 等。

這方面的一個示例是,連絡人資訊、購買的產品、開具的服務票據和保修資訊等客戶資訊都存儲在不同的商務應用程式中,比如 CRM、支援票據系統、市場門戶等。 想像一位希望聯繫客戶以進行追加銷售的銷售人員。 他必須先登錄 10 個應用程式來匯總客戶的資訊,或者與 5 個人溝通來理解所有這些資訊。

Data Explorer 解決了這個重要難題。 資訊存儲在許多不同的系統和筒倉中,而使用者需要採用一致的方式來查看所有資料,快速導航到與他們最相關的資訊。 這裡的挑戰是:在員工最需要制定決策的資訊地方提供該資訊。

圖 3. InfoSphere Data Explorer 架構

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.