大資料提取價值資訊技術實現方案

來源:互聯網
上載者:User

標籤:hadoop   大資料   hive   hdfs   

大資料提取價值資訊技術實現方案

分5步:

1、通過FTP採集檔案

2、把檔案入到HDFS系統

3、使用HIVE從HDFS中選擇資料

4、使用DataStage或Infomatica把資料入庫

5、入庫到Sybase IQ資料庫


注意事項:

1、不一定用ftp採集檔案,反正只要把海量檔案採集過來即可;

2、採集的源檔案一定是海量的,可以檔案數海量,也可以檔案裡的內容海量,要不然就不叫大資料了;

3、這裡面主要用到了hadoop的hdfs,沒有用到mapreduce;

4、mapreduce其實是hive幫你實現了;

5、使用hive是因為只要會sql的人都會使用hive,學習成本低,一般企業特別是老企業會sql的開發人員一大把;

6、DataStage是ibm的,覺得不好用,所以現在用Infomatica替換;

7、ibm的東西都是賣的很便宜,但維護費很貴,他不開源所以你不得不找他來幫忙維護,所以我一直很討厭它;

8、ibm的東西不光維護貴,而且擴節點也不便宜,現在公司部分主機已轉向HP;

9、不一定選擇Sybase IQ,所以公司選擇了也沒啥大問題,查詢的速度挺快,更新和插入暫時也不覺得很慢,它是基於列儲存的而且價格比oracle便宜非常非常多。


應用情境:

比如你的網站有大量的使用者搜尋資訊,可以把這資訊檔入到hdfs,然後通過select出每個關鍵字的尋找次數,終於把這個關鍵詞和次數入庫到IQ。那麼,你直接看IQ,就可以知道最近大家搜尋的最多最關注的是什麼詞語了。


本文出自:ouyida3的csdn

2015.3.18

大資料提取價值資訊技術實現方案

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.