標籤:
上周末參加了IBM Analytics舉辦的“大資料駭客馬拉松(Big Data Hackathon)北京站”比賽,4個人組隊拿到了第一名,非常的開心,也非常的不容易,我們四個wesor像共事了很久一樣,各司其職配合默契,拿下了最後的錦標。第一天9點到晚上11點多,本想熬夜可是受限於主辦方場地,第二天9點到下午三點,連吃飯都端著盤子對著電腦。這兩天累的一直緩解不過來,睡覺都覺得累的睡不著,但是確實學到了很多的東西,從比賽中,從隊友身上……
就像博士說的,要說服別人覺得自己的工作非常重要。這句話之前從別的地方看到過,當時覺得不以為然,現在越發覺得有理。我們所做的工作或大或小,如何告訴別人,我們的工作是很重要的,其實是要講,我們要解決的問題是如何的重要和困難,把自己的成果描述的非常有用。而我們的工作永遠是個收斂的過程。前面描述的問題是宏大的,之後需要一步一步的收斂,把問題歸納到要解決的點上,解決最關鍵的核心問題,故而將整個問題解決。
解決問題的方法不在於有多複雜,用最簡單的演算法解決了最困難的問題,才是最值得稱讚的。所以不要總想著研究什麼新的演算法,先把經典的演算法搞清楚會應用,解決實際問題。
我們的ppt準備的不錯,也算沒白寫幾個月的ppt給各種領導彙報,把故事講圓了,而且沒有任何的廢話,點贊。想起了自己當年去A國做論文演講,好幾年不講了,以後有機會也需要上台講一講。
時間緊迫,scala代碼只能算是實現了功能,有非常多的地方需要最佳化。而且僅僅用到spark core的部分,其實是可以利用MLlib裡一些進階資料類型DataFrame來預先處理資料的,可惜還沒有學到,CollaborativeFilter也是現學現賣,需要加快spark core + MLlib的學習進度。
github學會了使用,確實非常好。
機器學習演算法的學習不能停,還好這次是沒有題目資料限定的比賽,如果以後有機會參加限定題目的比賽,對機器學習模型演算法的要求就高了,趁著算是有一點點的基礎,多學習多實踐,不求知道每個演算法的數學基礎,但要知道什麼問題用什麼模型和演算法,怎麼最佳化調整等等。
幾個wosor真心“騷”味相投,即使最後不拿獎,兩天時間也特別開心,好吃好喝,連蹲坑都是一起,慶幸自己有這些好朋友,自豪自己也是其中的一份子。
正在搞新的資料,翻譯新的模型演算法,學習新的東西,向著新的目標出發……
http://www.csdn.net/article/a/2015-08-18/15827301
http://www.c114.net/news/212/a914245.html
END
大資料駭客馬拉松(Big Data Hackathon)賽後小結