標籤:通過 cassandra 資料管理 部署 演算法 易用 查詢 方法 hadoop
大資料分析工具使使用者能夠分析各種各樣的資訊——包括結構化交易資料和社交媒體文章、Web伺服器記錄檔及其他形式的非結構化和半結構化資料。一旦組織決定要購買一個大資料分析工具,下一步就是制定一個流程,評估可用的產品,然後從中找到一個最適合你需求和要求的產品。
下面我們將介紹在評估各種大資料分析工具符合企業需求的程度時可能用到的必備特性和特定屬性。然後,你再編寫一個預案請求(RFP),說明使用這些工具將如何解決組織的需求。
一、 建模技術的廣度與深度
供應商已經應用了不同層級的建模,並且相應地開發了不同複雜度的分析功能。單個工具支援的分析建模廣度反應了所提供的不同方法。其中一些例子包括迴歸技術、根據過去趨勢預測變化值的時間序列模型、分類與迴歸樹(也稱為CART)和神經網路。
建模技術的深度反映了所使用方法的兩個方面特徵:支援更精準開發模型的演算法成熟度等級和建模技術的靈活性。換而言之,資料採礦和預測性分析時需要使用哪一種層級的專業知識才能理解目前能夠開發哪一些類別的模型及如何使用一個特定工具完成建模?經驗一般的資料分析師感興趣的是提供大量分析功能的供應商產品,而更專業的分析師和統計師則更偏好於那些能夠更深入分析特定分析模型的工具。
二、 整合與可訪問性
大資料分析應用通常依賴于越來越多的內部和外部資料源,其中包括結構化和非結構化資料。這促成了支援資料可訪問性和系統整合的功能需求。
三、 非結構化資料使用率
確認產品能夠使用不同類型的非結構化資料(文檔、電子郵件、映像、視頻、簡報、社交媒體渠道資訊等),並且能夠解析和利用收到的資訊。
四、大資料可訪問性
對比供應商工具串連大資料架構的方式,其中包括儲存在Hadoop的分布式資料,以及各種橫向擴充儲存中儲存的檔案(例如,MongoDB或Apache Cassandra等NoSQL資料)。
五、 與現有平台組件的互通性
如果要在一些傳統資料管理和BI技術中混搭分析方法,那麼這一點非常重要。例如,許多分析工具支援通過傳統的SQL查詢去調用分析模型。這種形式的互通性允許使用預測模型的結構去產生一些傳統資料分析師通常都能使用的查詢與報表。
1.串連性 一定要評估串連性,或者說產品訪問其他系統的能力,以及作為資料來源給現有平台提供用於產生報表和分析的能力。
2.易用性 有一些大資料分析產品是供應商從零開始開發的,而有一些則基於開源的R統計語言。無論是哪一種情況,這種評估類別主要關注於產品用於分析資料、開發模型和確定模型有效性與準確性的易用性。
3.商務分析師可用性
沒有統計背景的商務分析師是否也能夠輕鬆地開發分析和應用呢?確定產品是否提供了方便開發和分析的可視化方法。
4.部署不同業務用例的靈活性
相同的演算法方法可以應用到許多不同行業的不同業務情境中。如果你的組織準備做的這類分析數量有限,並且集中在更為普通的用例上(如客戶生命週期價值分析、欺騙行為分析或存留預防),那麼你可能應該在技術選擇犧牲一些靈活性。然而,如果你的組織想要一種廣度更大、約束更小的分析方法,則應該尋找一些靈活性更高的建模技術。
大資料分析工具採購指南