對TextFile格式檔案的lzo壓縮建立index索引

來源:互聯網
上載者:User
hadoop中可以對檔案進行壓縮,可以採用gzip、lzo、snappy等壓縮演算法。對於lzo壓縮,常用的有LzoCodec和lzopCodec,可以對sequenceFile和TextFile進行壓縮,但是有一點,對TextFile壓縮後,mapred對壓縮後的檔案預設是不能夠進行split操作,需要對該lzo壓縮檔進行index操作,產生lzo.index檔案,map操作才可以進行split。/hadoop jar hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer   xxx.lzo索引完成後,在lzo壓縮檔的相同目錄下,產生.lzo.index檔案 需要說明的是,1、不支援對sequenceFile 產生.lzo格式的壓縮檔,雖然支援對sequenceFile壓縮      只支援對Store as textFile的產生.lzo尾碼的檔案2、如果設定LzoCodec,那麼就產生.lzo尾碼的檔案,可以用LzoIndexer 進行支援split的index計算,如果設定LzopCodec,那麼產生.lzo_deflate尾碼的檔案,不支援建立index。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.