九款命令列工具助力Linux環境下的資料分析__Linux

來源:互聯網
上載者:User

【51CTO.com快譯】要對資料進行分析,大家會從哪裡入手?

對於大多數熟悉了圖形工作環境的朋友來說,試算表工具無疑是第一選項。但命令列工具同樣能夠更快更高效地解決問題——且只須稍微學習即可上手。

大部分此類工具凍嚴格局限於Linux,而多數可同樣運行在Unix甚至是Windows環境之下。在今天的文章中,我們將嘗試幾款簡單的開來源資料分析工具,並共同瞭解其如何運作。

一、head與tail

首先,讓我們先從檔案處理開始。檔案中有什麼內容?其格式如何?大家可以使用cat命令在終端中顯示檔案,但其顯然不適合處理內容較長的檔案。

輸入head與tail,二者能夠完整顯示檔案中的指定行數內容。如果大家未指定行數,則預設顯示其中10行。

 $ tail -n 3 jan2017articles.csv   02 Jan 2017,Article,Scott Nesbitt,3 tips for effectively using wikis for documentation,1,/article/17/1/tips-using-wiki-documentation,"Documentation, Wiki",710   02 Jan 2017,Article,Jen Wike Huger,The Opensource.com preview for January,0,/article/17/1/editorial-preview-january,,358   02 Jan 2017,Poll,Jason Baker,What is your open source New Year's resolution?,1,/poll/17/1/what-your-open-source-new-years-resolution,,186  

在最後三行中,我能夠找到日期、作者姓名、標題以及其他一些資訊。不過由於缺少列頭,我不清楚各列的具體含義。下面查看各列的具體標題:

 $ head -n 1 jan2017articles.csv   Post date,Content type,Author,Title,Comment count,Path,Tags,Word count  

現在一切都非常明確,我們可以看到發布日期、內容類型、作者、標題、提交次數、相關URL、各文章標籤以及字數。

二、wc

但如果需要分析數百甚至上千篇文章,又該如何處理?這裡就要使用wc命令了——其為“字數”一詞的縮寫。wc能夠對檔案的位元組、字元、單詞或者行數進行計數。在本樣本中,我們希望瞭解文章中的行數。

 $ wc -l jan2017articles.csv 93 jan2017articles.csv  

本檔案共有93行,考慮到第一行中包含檔案標題,因此可以推測此檔案是一份包含92篇文章的列表。

三、grep

下面提出新的問題:其中有多少篇文章與安全話題有關?為了實現目標,我們假定需要的文章會在標題、標籤或者其他位置提到安全這一字眼。這時,grep工具可用於通過特定字元搜尋檔案或者實現其他搜尋模式。這是一款極為強大的工具,因為我們甚至能夠利用Regex建立極為精確的匹配模式。不過這裡,我們只需要尋找一條簡單的字串。

 $ grep -i "security" jan2017articles.csv   30 Jan 2017,Article,Tiberius Hefflin,4 ways to improve your security online right now,3,/article/17/1/4-ways-improve-your-online-security,Security and encryption,1242   28 Jan 2017,Article,Subhashish Panigrahi,How communities in India support privacy and software freedom,0,/article/17/1/how-communities-india-support-privacy-software-freedom,Security and encryption,453   27 Jan 2017,Article,Alan Smithee,Data Privacy Day 2017: Solutions for everyday privacy,5,/article/17/1/every-day-privacy,"Big data, Security and encryption",1424   04 Jan 2017,Article,Daniel J Walsh,50 ways to avoid getting hacked in 2017,14,/article/17/1/yearbook-50-ways-avoid-getting-hacked,"Yearbook, 2016 Open Source Yearbook, Security and encryption, Containers, Docker, Linux",2143  

我們使用的格式為grep加-i標記(告知grep不區分大小寫),再加我們希望搜尋的模式,最後是我們所搜尋的目標檔案的位置。最後我們找到了4篇安全相關文章。如果搜尋的範圍更加具體,我們可以使用pipe——它能夠將grep同wc命令加以結合,用以瞭解其中有多少行提到了安全內容。

 $ grep -i "security" jan2017articles.csv | wc -l 4  

這樣,wc會提取grep命令的輸出結果並將其作為輸入內容。很明顯,這種結合再加上一點shell指令碼,終端將立即變成一款強大的資料分析工具。

四、tr

在多數分析情境下,我們都會面對CSV檔案——但我們該如何將其轉換為其他格式以實現不同應用方式?這裡,我們將其轉化為HTML形式以通過表格進行資料使用。tr命令可協助大家實現這一目標,它可將一類字元轉化為另一類。同樣的,大家也可以配合pipe命令實現輸出/輸入對接。

下面,我們試試另一個多部分樣本,即建立一個TSV(即定位字元分隔值)檔案,其中只包含發表於1月20日的文章。

 $ grep "20 Jan 2017" jan2017articles.csv | tr ',' '\t' > jan20only.tsv  

首先,我們利用grep進行日期查詢。我們將此結果pipe至tr命令,並利用後者將全部逗號替換為tab(表示為‘\t’)。但結果去哪了?這裡我們使用〉字元將結果輸出為新檔案而非螢幕結果。如此一來,我們可以dqywjan20only.tsv檔案中一定包含預期的資料。

 $ cat jan20only.tsv 20 Jan 2017 Article Kushal Das 5 ways to expand your project's contributor base 2 /article/17/1/expand-project-contributor-base Getting started 690 20 Jan 2017 Article D Ruth Bavousett How to write web apps in R with Shiny 2 /article/17/1/writing-new-web-apps-shiny Web development 218 20 Jan 2017 Article Jason Baker "Top 5: Shell scripting the Cinnamon Linux desktop environment and more" 0 /article/17/1/top-5-january-20 Top 5 214 20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007  

五、sort

如果我們先要找到包含資訊最多的特定列,又該如何操作?假設我們需要瞭解哪篇文章包含最長的新文章列表,那麼面對之前得出的1月20日文章列表,我們可以使用sort命令對列字數進行排序。在這種情況下,我們並不需要使用中間檔案,而可以繼續使用pipe。不過將長命令鏈拆分成較短的部分往往能夠簡化整個操作過程。

 $ sort -nr -t$'\t' -k8 jan20only.tsv | head -n 1   20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007  

以上是一條長命令,我們嘗試進行拆分。首先,我們使用sort命令對字數進行排序。-nr選項告知sort以數字排序,並將結果進行反向排序(由大到小)。此後的-t$'\t'則告知sort其中的分隔字元為tab(‘\t’)。其中的$要求此shell為一條需要處理的字串,並將\n返回為tab。而-k8部分則告知sort命令使用第八列,即本樣本中進行字數統計的目標列。

最後,輸出結果被pipe至head,處理後在結果中顯示此檔案中包含最多字數的文章標題。

六、sed

大家可能還需要在檔案中選擇特定某行。這裡可以使用sed。如果希望將全部包含標題的多個檔案加以合并,並只為整體檔案顯示一組標題,即需要清除額外內容; 或者希望只提取特定行範圍,同樣可以使用sed。另外,sed還能夠很好地完成批量尋找與替換任務。

下面立足之前的文章列表建立一個不含標題的新檔案,用於同其他檔案合并(例如我們每月都會定期產生某個檔案,現在需要將各個月份的內容進行合并)。

 $ sed '1 d' jan2017articles.csv > jan17no_headers.csv  

其中的“1 d”選項要求sed刪除第一行。

七、cut

瞭解了如何刪除行,那麼我們該如何刪除列?或者說如何只選定某一列?下面我們嘗試為之前產生的列表建立一份新的作者清單。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.