在Hadoop上調試HadoopStreaming程式的方法詳解 by 道凡

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

點擊查看原文

Hadoop提供若干種在調試HadoopStreaming的方法，供你使用，方便你快速定位問題。

讓HadoopStreaming程式跑在開發機上。（推薦在開發時使用）
在jobconf中加上mapred.job.tracker=local。資料的輸入和輸出都是來自HDFS
此時，HadoopStreaming會在本地運行程式
保留出錯的現場（推薦在跑大資料量時使用）
通過設定jobconf參數keep.failed.task.files=true，當程式出錯時，可以保留現以供
Debug。可以通過GUI查到到具體是在哪個節點運行失敗，然後登陸到該節點<local>/taskTracker/<taskid>/work/ ，查看core檔案。
通過script程式收集資訊來偵錯工具（推薦在開發時使用）
編寫調試指令碼程式，通過指令碼，可以把程式執行過程中任何現場都保留下來，比如
Core檔案的堆棧資訊，這樣可以確定程式具體是在什麼地方出錯。
指令碼的調用方式如下：
```
$script $stdout $stderr $syslog $jobconf 程式名
```
（註：在官方文檔
http://wiki.apache.org/hadoop/HowToDebugMapReducePrograms 描述中程式名會通過第5個參數返回，但筆者在Hadoop 0.19的測試環境中，得到這個參數是空的。）
指令碼樣本：
```
core=`find . -name 'core*'`;cp $core /home/admin/gdb -quiet ./a.out -c $core -x ./pipes-default-gdb-commands.txt
```
pipes-default-gdb-commands.txt註明了執行的gdb命令
```
info threadsbacktracequit
```
（註明：如果要正確執行以上的指令碼，必須讓程式能輸出core檔案，可以在程式中加入如下程式碼片段）
```
struct rlimit limit;limit.rlim_cur = 65535;limit.rlim_max = 65535;if (setrlimit(RLIMIT_CORE, &limit) != 0) {    printf("setrlimit() failed with errno=%s\n", strerror(errno));    exit(1);}
```
然後在jobconf中，把要執行的script賦給變數”mapred.map.task.debug.script”或”mapred.reduce.task.debug.script”。這樣當HadoopStreaming執行過程發生core dump，就可以通過JobTracker的GUI介面看到GDB的資訊了。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

在Hadoop上調試HadoopStreaming程式的方法詳解 by 道凡

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support