KETTLE——Weka處理大資料量記憶體溢出問題

來源:互聯網
上載者:User

現在做的一個項目ETL採用KETTLE,通過Perl指令碼進行分天表、月表及年表的建立,並修改KETTLE建立的抽取工作範本。即使這樣在處理天表表近百萬資料量時,Kettle也會有時發生記憶體溢出現象,導致抽取任務失敗。今天發現了一哥們BLOG中的解決辦法,特分享。

 

以Spoon.bat為例,其他組件和.sh操作類似

 

用文字編輯器開啟Spoon.bat找到:

 

REM ******************************************************************

REM ** Set java runtime options                                     **

REM ** Change 256m to higher values in case you run out of memory.  **

REM ******************************************************************

 

set OPT=-Xmx1444m -cp %CLASSPATH% -Djava.library.path=libswt\win32\ -DKETTLE_HOME="%KETTLE_HOME%" -DKETTLE_REPOSITORY="%KETTLE_REPOSITORY%" -DKETTLE_USER="%

KETTLE_USER%" -DKETTLE_PASSWORD="%KETTLE_PASSWORD%" -DKETTLE_PLUGIN_PACKAGES="%KETTLE_PLUGIN_PACKAGES%"

 

修改這裡的數字...-Xmx1444m...

我裝的是jdk-1_5_0_14這裡的1444m是極限了.大家可以在自己的機器上實驗不同的數值.

 

 

 

WEKA(感謝網友:comcome84)

 

用文字編輯器開啟RunWeka.ini找到:

 

# placeholders ("#bla#" in command gets replaced with content of key "bla")

# Note: "#wekajar#" gets replaced by the launcher class, since that jar gets

#       provided as parameter

maxheap=1444m

 

這裡同樣被我修改成1444m.

感謝本文方法來源:http://blog.csdn.net/senaku/archive/2008/07/03/2609021.aspx

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.