淺析hadoop寫入資料api

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

對於一般檔案，都有滿足隨機讀寫的api。而hadoop中的讀api很簡單用FSDataInputStream類就可以滿足一般要求，而hadoop中的寫操作卻是和普通java操作不一樣。

hadoop對於寫操作提供了一個類：FSDataOutputStream，這個類重載了很多write方法，用於寫入很多類型的資料：比如位元組數組，long，int，char等等。像FSDataInputStream一樣，要獲得FSDataOutputStream的執行個體，必須通過FileSystem該類來和HDFS建立串連，然後通過路徑返回FSDataOutputStream執行個體。FileSystem返回FSDataOutputStream執行個體的方法有兩組：

create(Path p)函數，建立一個空檔案，然後可以向該檔案順序寫入
append(Path p)函數，開啟一個已有檔案，並最做檔案末尾追加資料

以上兩組函數都有多個重載版本，可以查閱手冊。FSDataOutputStream不允許在檔案中定位（而FSDataInputStream可以），這是因為hadoop只允許在一個已開啟檔案順序寫入或在檔案尾追加資料，不允許在結尾之外其他檔案寫入資料。

在使用append的操作時可能返回異常dfs.support.append未設定為true，只要才hdfs-site.xml中把該屬性設定為true

<property>  <name>dfs.support.append</name>  <value>false</value>  <description>Does HDFS allow appends to files?               This is currently set to false because there are bugs in the               "append code" and is not supported in any prodction cluster.  </description></property>

而且0.20的早起版本也不支援append操作，官方文檔的建議是如果追加資料就重新create一個檔案。使用的時候應該謹慎一點。

當讀取檔案時若要返迴文件的大小，用下列代碼：

FileStatus status=hdfs.getFileStatus(p);return status.getLen();

但是當對檔案寫入時，FileStatus的getLen函數返回的不是當前的大小，因為FSDataInputStream在寫入資料時，資料會緩衝，只有當寫入的資料滿64M（塊大小）時或者關閉檔案時，才會把資料寫入到檔案中去。連續寫入資料時，為了即時擷取當前檔案大小，如果連續關閉開啟檔案勢必會影響效率。可以這樣解決：

long result;if(outFsData!=null){//FSDataInputStream對象執行個體result=writeInitSize+outFsData.size()//檔案開啟時的長度}else{FileStatus status=hdfs.getFileStatus(p);result=status.getLen();//這個getLen()返回的是int型，最大也就是4G，要注意}return result;

FSDataInputStream該類的size函數就是返回的緩衝區寫入的資料的大小。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

淺析hadoop寫入資料api

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support