Time of Update: 2018-12-05
因為報表前端用dot NET MVC寫的,要想從HIVE中擷取詳細資料,目前的方案是使用hive thriftserver。 1. 產生HIVE
Time of Update: 2018-12-05
Hive進行UDAF開發,相對要比UDF複雜一些,不過也不是很難。請看一個例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable; public class UDAFSum_Sample extends NumericUDAF { public static class
Time of Update: 2018-12-05
1.概述本文以C++語言為例介紹了thrift RPC的使用方法,包括對象序列化和還原序列化,資料轉送和資訊交換等。本文採用了一個樣本進行說明,該樣本主要完成傳輸(上報日誌或者報表)功能,該樣本會貫穿本文,內容涉及thrift定義,代碼產生,thrift類說明,client編寫方法,server編寫方法等。關於Thrift架構分析,可參考:Thrift架構介紹。關於Thrift檔案編寫方法,可參考:Thrift使用指南。2.樣本描述假設我們要使用thrift
Time of Update: 2018-12-05
編譯Hive/Hadoop總結1. 首先要看readme檔案,根據說明來編譯;2. 首先在命令列確保可以編譯打包成功,然後執行ant eclipse-files產生針對eclipse的檔案,然後就可以匯入到eclipse裡了(具體見http://blog.csdn.net/shuhuai007/article/details/6739847)3. 修改編譯環境HADOOP_HOME的值(Run-->Debug
Time of Update: 2018-12-05
MangoDB的優點:Schema Free; CAPPing Table;二維索引; 分布計算;讀寫效能; MangoDB效能注意事項: 1. key盡量短,key會在每一行中存在,太長對資料大小影響很大;2. 常用key放在前面;mangodb匹配key的方式是從前向後掃描,遇到匹配的才停止;3. _id應用起來,可以根據業務採用有意義的東西;4.
Time of Update: 2018-12-05
文章目錄 業界已經公開的二級索引方案羅列: 二級索引與索引Join是Online業務系統要求儲存引擎提供的基本特性。RDBMS支援得比較好,NOSQL陣營也在摸索著符合自身特點的最佳解決方案。 這篇文章會以HBase做為對象來探討如何基於Hbase構建二級索引與實現索引join。文末同時會列出目前已知的包括0.19.3版secondary index,?ITHbase,
Time of Update: 2018-12-05
說起Greenplum這個產品,最早是SUN來推他們的資料倉儲產品DWA時接觸到的,對這個由PgSQL堆疊出來的資料庫產品還不是很瞭解,當時的焦點還在DWA本身的硬體上,當然不可否認,DWA還是有一些特點的。後來,我們發現普通的PC+SAS磁碟具備非常好的吞吐能力,完全不遜於某些昂貴的存放裝置。這樣我們就嘗試用PC+Greenplum搭建了一個 環境,效果完全超出了我們的預期,輸送量完全超過了我們的大型儲存。從那時開始,我們不再迷信那些昂貴的主機和儲存,開始嘗試一些新的東西,比如用
Time of Update: 2018-12-05
Hadoop++是對Hadoop Map Reduce的非入侵式最佳化,通過自訂Hadoop架構中的split等函數來提升,提升查詢和聯結效能。 項目由德國Saarland大學Jens Dittrich教授主持。項目首頁是 http://infosys.uni-saarland.de/hadoop++.php。Hadoop++對Hadoop的最佳化主要是Trojan Index、Trojan Join和Trojan Layout三方面。1、Trojan IndexTrojan
Time of Update: 2018-12-05
這裡說明,Ubuntu 中系統沒有了RH系統中的 chkconfig 命令 !可用一些小工具來管理 Ubuntu 的啟動選項:小工具 rcconf:#sudo apt-get rcconf#sudo apt-get install rcconfroot 下運行: #sudo rcconf功能更全的工具:sysv-rc-conf#sudo apt-get update#sudo apt-get install sysv-rc-conf運行:#sudo
Time of Update: 2018-12-05
hive是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案映射為一張資料庫表,並提供完整的sql查詢功能,可以將sql語句轉換為 MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合資料倉儲的統計分析。[網路環境設定] vim /etc/hosts192.168.100.52 hadoop1 192.168.99.34 hadoop2 192.168.103.135
Time of Update: 2018-12-05
1. 引言問題:有1000瓶藥,但是其中有一瓶是有毒的,小白鼠吃了24小時後就會死掉,請問,在24小時找出有毒的藥物,最少需要多少只小白鼠?答案是:10隻,一隻小白鼠可以表示2種狀態,2^10可以表示1024種狀態分析可參考:http://lzj0470.iteye.com/blog/657579通過二進位向量組來擴充描述的狀態,Bloom Filter(BF)演算法也是利用這個思想,其本質是上是一個很長的二進位向量和一系列隨機映射函數2.
Time of Update: 2018-12-05
Apriori演算法是我的第一個資料採礦演算法,算處女作吧,哈哈哈。在這之前我對資料採礦 演算法恐懼,覺得太難了,只是大致看了下原理,然後在clementine上拖幾個控制項跑下demo,啟動並執行結果很好但是總覺得技術含量不高,我不知道為什 麼要這麼做,為什麼那些參數要那麼設定,更糟糕的是發現那些演算法過一段時間都忘記了。沒辦法,不入虎穴焉得虎子,我逼迫自己根據書上提供的講解和偽碼,琢
Time of Update: 2018-12-05
由於python版本不匹配,所以需要重新安裝python,但是通過源碼編譯在make的時候會有很多依賴項的問題(具體見http://www.linuxdiyf.com/viewarticle.php?id=55587),嘗試了很久無法解決,無意中發現下面的方法,最終安裝成功。wget http://mirrors.ircam.fr/pub/ius/stable/Redhat/5/x86_64/epel-release-5-4.noarch.rpm wget
Time of Update: 2018-12-05
Hive進行UDF開發十分簡單,此處所說UDF為Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF開發只需要重構UDF類的evaluate函數即可。例:package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class helloUDF extends UDF { public String evaluate(String str) {
Time of Update: 2018-12-05
RHive 是一種通過HIVE高效能查詢來擴充R計算能力的包。它可以在R環境中非常容易的調用HQL, 也允許在Hive中使用R的對象和函數。理論上資料處理量可以無限擴充的Hive平台,搭配上資料採礦的利器R環境, 堪稱是一個完美的大資料分析挖掘的工作環境。環境配置(配置部分是同事搞定的,只記錄一些細節)RHive 依賴於Rserve,因此在安裝R的時候有些變化:./configure --disable-nls --enable-R-shlibmakemake
Time of Update: 2018-12-05
sudo是linux下常用的允許普通使用者使用超級使用者權限的工具,允許系統管理員讓普通使用者執行一些或者全部的root命令,如halt,reboot,su等等。這樣不僅減少了root使用者的登陸 和行政時間,同樣也提高了安全性。Sudo不是對shell的一個代替,它是面向每個命令的。它的特性主要有這樣幾點: § sudo能夠限制使用者只在某台主機上運行某些命令。 § sudo提供了豐富的日誌,詳細地記錄了每個使用者幹了什麼。它能夠將日誌傳到中心主機或者Log Service器。
Time of Update: 2018-12-05
網路管理與相關應用01 1.arp 控制系統ARP緩衝,arp -a 查詢表中的所有記錄項,arp -e 顯示所有arp表記錄項 2.arpwatch 監聽ARP記錄 3.arping 向鄰居主機發送arp請求 4.cu 調用其他主機系統 ,cu -v 顯示版本資訊 5.hostname 顯示當前系統的主機名稱 6.host DNS查詢,host www.baidu.com 7.ifconfig 顯示或配置網路裝置 ,ifconfig -a 顯示所有網卡資訊,ifconfig lo
Time of Update: 2018-12-05
之前我們跑mapreduce,對某些維度進行統計,都是暴利方式的遍曆,有些時候,我們僅僅想掃描未經處理資料的一部分,或者僅僅是其中的一列,這些資料可能僅僅是未經處理資料的十分之一,百分之一,那麼暴利掃描太不可取了。 回想下我們之前使用資料庫的情境,資料庫在掃描的時候通常是利用一些索引, 而並非全表掃描,故mapReduce
Time of Update: 2018-12-05
http://www.iqtest.dk/main.swf-----------------------------------------------------------------------解答由來:第37題前天有人在貼子裡問我,我貌似直接秒掉了,今天無聊做了一下,陰差陽錯發現題目原來出自這裡,暈死。。閑的蛋疼,晚上研究了一番到深夜,總計1個半小時1,我第一次做得了138分。。。最後弄出滿分145,我用了半個小時排查,居然發現11題和36題錯了!!鬱悶死了。。2,全部題目給出瞭解析,我
Time of Update: 2018-12-05
hive提供了複合資料型別:Structs: structs內部的資料可以通過DOT(.)來存取,例如,表中一列c的類型為STRUCT{a INT; b INT},我們可以通過c.a來訪問域aMaps(K-V對):訪問指定域可以通過["指定網域名稱稱"]進行,例如,一個Map M包含了一個group-》gid的kv對,gid的值可以通過M['group']來擷取Arrays:array中的資料為相同類型,例如,假如array