Time of Update: 2018-12-05
a、空間換時間(多級緩衝) 1)用戶端頁面緩衝(http header中包含Expires/Cache of Control,last modified(304,server不返回body,用戶端可以繼續用cache,減少流量),ETag) 2)反向 Proxy緩衝 3)應用端的緩衝(memcache) 4)記憶體資料庫
Time of Update: 2018-12-05
zookeeper在hbase中的利用梳理相關的節點說明,root-region-server:ROOT表所在的regionserver(HMaster尋找root表並分配給一個NodeServer上後,註冊在zookeeper上)rs:子節點表示線上的region server(regionserver上線後,註冊在rs下面)draining:(HDFS currently has a way to exclude certain datanodes and prevent them
Time of Update: 2018-12-05
在用FlumeNG1.3.1 Tail 一個檔案收集日誌到HDFS中時,發現原始記錄檔最後幾行資料總是不能寫入到HDFS檔案中,即使HDFS按照大小或者時間rollling成了一個新的檔案。 HDFS在復原一個新的檔案中時,保留在HDFSEventSink中的資料(即使未達到一個包的大小)會寫入到HDFS中,在HDFS的.hadoop fs -cat命令可以看到該資料。
Time of Update: 2018-12-05
HBase中的major compact功能中,參數hbase.hregion.majorcompaction已經設為0了,日誌中發現還是會major compact。有3種方式,可以激發major compact1) 通過hbase shell命令 major_compact進行觸發2) compact when file <= sum(smaller_files) *'hbase.hstore.compaction.ratio'
Time of Update: 2018-12-05
最近需要搞一下Lease,分析一下recoverLease的過程,順帶把recoverBlock的過程分析一下。一、 recoverLeaserecoverLease是恢複租約,我理解為釋放檔案之前的租約,close檔案,報告namenode。recoverLease有兩條路徑去調用1. DistributedFileSystem.create -> DFSClient.create -> Namenode.create -> FSNamesystem.startFile -&
Time of Update: 2018-12-05
1.ftp 登入ftp.freebsdchina.org/pub/FreeBSD/ports/i386/packages-6.3-release/www 下載apache-tomcat-6.0.14.tbz 2.安裝tomcat. ...... pkg_add apache-tomcat-6.0.14.tbz 3.設定環境 FreeBSD的基本系統中可以使用的shell有兩個:sh和csh,sh為 “$” ,csh為 “%” ,如果是使用root使用者,登入提示符將是 “#” .系統登入時,
Time of Update: 2018-12-05
1.先產生公開金鑰密鑰 RSACryptoServiceProvider crypt=new RSACryptoServiceProvider(); string publickey=crypt.ToXmlString(false);//(公開金鑰) string privatekey=crypt.ToXmlString(true); crypt.Clear(); StreamWriter one=new
Time of Update: 2018-12-05
hbase線上叢集升級紀要1. 現狀15台region server,4000多個region。2.升級目標將原有15台配置較差的region server,升級為新的配置好的伺服器。這是一次硬體升級。3.升級過程為了保證升級平穩過渡,採用以下策略a. 將新的15台 server加入到region server叢集中;b. 觀察region server的負載分布,等待這30個region server均勻;c. 待均勻後,讓原有的region server下線;d.
Time of Update: 2018-12-05
SEDA(Staged Event-Driven Architecture)的核心思想是把一個請求處理過程分成幾個Stag,不同資源消耗的Stag使用不同數量的線程來處理,Stag間使用事件驅動的非同步通訊模式。 更進一步,在每個Stage中可以動態配置自己的線程數,在超載時降級運行(如輸出純文字頁面)或拒絕服務。 在每個Stage的通常有如下組件:Incoming Event Queue ,事件隊列。Admission Controller
Time of Update: 2018-12-05
Hadoop-0.23.0 eclipse環境搭建by 老劉 posted on OCTOBER 2, 2011主要參考 https://wiki.apache.org/hadoop/EclipseEnvironment這裡考慮0.23版本svn co http://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.23/相關介紹:http://www.hortonworks.com/update-on-apache-hadoop-
Time of Update: 2018-12-05
試用Google Protocol Buffers試用了google Protocol Buffers, 2.0.0 beta 版本,感覺還不錯。可以去這裡下載,有linux和windows版本。Protocol Buffers是一個平台中立,程式設計語言無關的,可擴充的機制,用來將資料序列化。有點類似xml,但是比xml更小更快更簡單。[!toc]如何使用1. 使用Protocol特定的簡潔的描述文法,描述一個資料結構,如:message Person {required string
Time of Update: 2018-12-05
Scan:設定scan記錄的條件,buffer size,cache size等ResultScanner:提供scan的介面,ClientScaner:用戶端 ResultScanner的實現,資料分布在多個region之間的,就依次讀取。用法如下: HTableInterface tbl = null; tbl = table.getTable("table_name"); Scan scan = new Scan(); //設定用戶端緩衝的記錄數量,調用next方法時,
Time of Update: 2018-12-05
hadoop development environment to build7 people Bookmark this article 我要收藏 5 months ago 523 reads 1 commentshadoop development environment set up:hadoop website:http://hadoop.apache.org/http://wiki.apache.org/hadoop/Reference to this article
Time of Update: 2018-12-05
hadoop中可以對檔案進行壓縮,可以採用gzip、lzo、snappy等壓縮演算法。對於lzo壓縮,常用的有LzoCodec和lzopCodec,可以對sequenceFile和TextFile進行壓縮,但是有一點,對TextFile壓縮後,mapred對壓縮後的檔案預設是不能夠進行split操作,需要對該lzo壓縮檔進行index操作,產生lzo.index檔案,map操作才可以進行split。/hadoop jar hadoop-lzo.jar
Time of Update: 2018-12-05
最近在MapReduce的邏輯運算測試的時,發現單個節點的CPU的IO wait值比較高,CPU大量的消耗在等待IO操作上。單個節點的運算的資料量比較大,每秒的IO輸送量將近200M,iotop監控了一下主要是消耗在tasktacker從datanode節點讀取資料上。從以下幾個角度上對這個問題進行最佳化。1、來源資料壓縮儲存2、dfs.data.dir分多個目錄存放3、io.file.buffer.size的調整,增加每次讀取的資料量4、減少tasktracker並發任務的進程數量5、map.
Time of Update: 2018-12-05
distcp主要用於在hadoop叢集之間拷貝資料。1,如果haboop版本相同,可以使用如下格式hadoop distcp hdfs://<hdfs_address:hdfs_port>/src hdfs://<hdfs address:port>/des2, 如果在不同版本的hadoop叢集之間拷貝資料,可以使用如下格式hadoop distcp -i hftp://<hdfs_address:http_port>>/src
Time of Update: 2018-12-05
1、先看一下數學中的異或 異或xor是一個數學運算子。它應用於邏輯運算。異或符號為“^”。異或也叫半加運算,其運演算法則相當於不帶進位的二進位加法:二進位下用1表示真,0表示假,則異或的運演算法則為:0異或0=0,1異或0=1,0異或1=1,1異或1=0(同為0,異為1),既然相同的對象XOR操作,結果是0,那麼有這樣一個公式,A xor B…xor B xor A =
Time of Update: 2018-12-05
最近在測試過程中,發現在做map reduce資料分析的過程中,cpu sys部分會偶然的升到,甚至到達50%,抖動的比較厲害。節點的磁碟的IO輸送量比較大,每秒達到150M,大部分是tasktracker讀取本地節點DFS的資料,預設情況下,讀取資料是系統調用每次從硬碟上讀取4K大小的資料到核心空間中,後由核心copy到應用程式空間,是什麼導致核心部分消耗大部分的時間。經過大量的各方面的監控,發現CPU
Time of Update: 2018-12-05
測試叢集:9個region server(16 core + 24GB記憶體)。Hbase client機器(8 core + 32GB記憶體)資料量:日誌資料,1122MB,儲存在hdfs中。 hbase rowkey為9個位元組,第一個位元組是hash值,後八個位元組對應long型數值;value約200b。 寫效能關鍵影響因素1. rowkey分布式是否均衡,最好先瞭解rowkey的特徵,預設splitkeys,將rowkey範圍均衡地分散到各個region
Time of Update: 2018-12-05
http://www.dw4e.com/?p=88本文譯自cloudera公司Charles Zedlewski寫的一篇文章《An update on Apache Hadoop 1.0》關於最新發行的Apache Hadoop