java 讀取 C存放到Memcached中的網頁GZIP壓縮字串、並解壓出網頁文本

來源:互聯網
上載者:User

最近公司要做抓取、java的效率不行、然後就選了 C 做抓取、為提高傳輸效率要抓取網頁的GZIP壓縮過的資料、

所以就要求實現 用java 讀取 C存放到Memcached中的網頁GZIP壓縮字串、並解壓出網頁文本、

折騰了幾天翻了官方文檔 看了源碼終於解決掉讀取的問題了

 

1、memcached 預設編碼集是UTF-8 所以如果存普通文本、那取出來就沒有問題。
     但是現在存的是壓縮的文本字串、所以用預設的UTF-8取出來就會有問題、就要改它的預設編碼集
     MemCachedClient mcc = new MemCachedClient("Server"+ind);
     mcc.setDefaultEncoding("ISO-8859-1");//更改預設編碼集(好像只能用ISO-8859-1其他的測試都不行)
  
2、然後取資料的時候不要用預設的mcc.get(key)方法 換成 mcc.get(key,null,true);區別就在第三個參數

     表明get時直接返回String,而不進行解碼。

 

3、 如果你設定了 預設編碼集是ISO-8859-1的話 但是取的是普通文本 需要如下轉換
 s = new String(s.getBytes("ISO-8859-1"),"UTF-8");

 

 

4、memcached 預設會對 key 進行 URLEncoder的編碼、如果你的key裡有特殊字元那key的值就變掉了、如:@會變成%40

     //取值設定不對key做編碼   

    mcc.setSanitizeKeys(false);  

 

以上都採用 com.danga.MemCached.MemCachedClient 用戶端處理、系統內容win7

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.