Tlog中一些shell命令技巧

來源:互聯網
上載者:User

標籤:style   blog   http   io   ar   color   使用   sp   java   

Tlog中一些shell命令技巧

陰差陽錯的做的日誌分析,前途未蔔的這段日子,唯一還有點意思的可能就是手動的處理大量日誌。總結一下。

記錄檔的輸入是動則幾個G的文本。從N個這樣的檔案中得到一個列表,一個數字,一個比例。在什麼工具都沒有情況下,用shell命令不僅是驗證系統資料的準確性的方法,也是一個很好的學習過程。

使用cut命令切割日誌行

下面的一行典型的apache訪問日誌:

120.51.133.125 - - [26/Apr/2013:12:20:06 +0800] "GET /skins/skin_homepage.php?display=wvga&lang=ja_JP&pixel=720X1280&density=2.0&version=5.7&key=5146f54950f09f71750005ef&uid=1 HTTP/1.1" 200 4847 "http://t.co/rww3WDuhS5" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; YTB730)" 0 

如果需要得到IP地址可以使用cut命令

 cat log | cut -d ‘ ‘ -f1 

-d ‘ ‘表示按照空格將行切開,-f1 取第一個欄位,這樣得到的結果就是IP列表

有時候拿到的檔案是\t分隔,也可以使用cut切開,只不過需要多寫一個$

[l]$ cat log | cut -d ‘\t‘ -f1 cut: the delimiter must be a single character #-d ‘\t‘會報錯的 cut -f2 -d$‘\t‘ infile #work 
使用tr命令去掉字元,替換字元

-c:complement,用SET2替換SET1中沒有包含的字元
-d:delete,刪除SET1中所有的字元,不轉換
-s: squeeze-repeats,壓縮SET1中重複的字元
-t: truncate-set1,將SET1用SET2轉換,一般預設為-t

如果拿到分割的檔案

cat log | tr -s ‘ ‘ ‘,‘ 

[email protected]:~/dhcptest$ echo "aaacccddd ss " | tr -s [a-c]   # -s
acddd ss

[email protected]:~/dhcptest$ echo "aaacccddd  ss " | tr -s " " ","  #d和s之間有2個空格,替換後壓縮重複
aaacccddd,ss,

[email protected]:~/dhcptest$ echo "aaacccddd  ss " | tr -t " " ","
aaacccddd,,ss,

[email protected]:~/dhcptest$ echo "aaacccddd  ss " | tr -s "a" "b" #替換後壓縮重複
bcccddd ss

將空格替換成,檔案變成csv

cat log | tr -d ‘ ‘ 

上面的命令直接刪除空格   

Tlog後經常會出現空行,tr命令去掉空行的原理就是將連續兩個換行替換成一個換行

cat log | tr -s ‘\n\n‘ ‘\n‘ 
使用uniq命令去重

試想得到IP列表,欲得到獨立訪問的IP列表。

[l]$ cat log | cut -d ‘ ‘ -f1 | uniq -u 

如果不僅僅是去重,還想統計每個IP訪問次數,可以加一個參數c

[l]$ cat log | cut -d ‘ ‘ -f1 | uniq -uc 

得到的格式形如:

1 126.193.38.128 5 49.98.156.154 

前面的數字就是出現的次數

使用awk/seed來處理日誌

awk/seed是處理日誌的最終的萬金油。確實是什麼都可以做。awk/seed是一門很大的學問。這裡取我碰到的一個日誌,日誌格式形如:

display=wvga|||lang=ja_JP|||isActive=1|||pixel=720X1280|||density=2.0|||version=5.7|||key=5146f54950f09f71750005ef|||out=abc‘3|||uid=1 

如果我需要得到isActive=1的日誌行,取到out=中‘前一段,如上面的abc。

cat l | grep "isActive=1|" | awk ‘match($0,/out=[^\x27]+/){print substr($0,RSTART+4,RLENGTH-4)}‘ 

grep的功能是篩選isActive=1的行。awk 後面跟‘‘的是awk語言。$0總是代表當前匹配的欄位值,match substr是awk可以用的函數,當match時後面{}中的代碼才會執行。當match,$0就是正則匹配的部分。RSTART,RLENGTH是awk可以使用的常量,分別表示開始匹配的開始下標,RLENGTH是匹配的長度。

在‘‘中需要再使用‘光轉義是不行的,得用16進位的代碼\x27。轉16進位可以使用python代碼 "‘".encode("hex")得到

//驚訝awk就這麼簡單的解釋了,可這連入門都算不上。

集合操作

試想我想得到兩個列表的交際,並集,差集,統計中經常會碰到,比如我想獲得昨天今天都在訪問的IP,其實就是今天的IP列表和昨天IP列表的交集。

先定義兩個簡單的檔案:

[ l]$ cat a.txt 1 2 3 4 5 [ l]$ cat b.txt 4 5 6 7 8 9 

如果想得到ab的交集4 5 ,可以使用下面的命令:

sort -m a.txt b.txt | uniq -d 4 5 

如果要得到並集1-9,可以:

sort -m a.txt b.txt | uniq 1 2 3 4 5 6 7 8 9 

如果想得到ab的差集,即a去掉ab的交集1 2 3

comm -23 a.txt b.txt 1 2 3 

同理:ba的差集:

comm -13 a.txt b.txt comm -23 b.txt a.txt 

上述兩個命令等價

comm命令就是compare功能,如果什麼參數都不帶呢得到的什麼呢?

comm a.txt b.txt 1 2 3 4 5 6 7 8 9 

diff命令以前經常看代碼改了哪些:

diff a.txt b.txt  1,3d0 < 1 < 2 < 3 5a3,6 > 6 > 7 > 8 > 9 
總結&&參考資料

竊以為能玩轉上面這些命令,處理個日誌問題不大了。

一篇介紹shell中集合操作的博文:

http://wordaligned.org/articles/shell-script-sets

一直放在收藏夾的shell方面的部落格:

Linux Shell常用技巧

Linux Shell進階技巧 awk部分寫的獨好

Tlog中一些shell命令技巧

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.