資料採礦研究方向、熱點以及對大資料研究的認識

來源:互聯網
上載者:User

標籤:

  通過上網查詢以及看同行對會議的公用認識,資料採礦領域的頂級會議是KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining),公認的、排名前幾位的會議是KDD、ICDE、CIKM、ICDM、SDM,期刊是ACM TKDD、IEEE TKDE、ACM TODS、ACM TOIS、DMKD、VLDB Journal等。會議及期刊的全稱如下:

會議

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)

International Conference on Data Engineering (ICDE)

International Conference on Information and Knowledge Management (CIKM)

IEEE International Conference on Data Mining (ICDM)

SIAM International Conference on Data Mining (SDM)

期刊

ACM Transactions on Knowledge Discovery From Data (TKDD)

IEEE Transactions on Knowledge and Data Engineering (TKDE)

ACM Transactions on Database Systems (TODS)

ACM Transactions on Information Systems (TOIS)

Data Mining and Knowledge Discovery (DMKD)

 

  通過最近幾天對最新的(14年、15年)會議論文閱讀,首先說一下資料採礦領域在做什麼、熱點研究在哪裡。

  資料採礦領域主要包括以下方面:基礎理論研究(規則和模式挖掘、分類、聚類、話題學習、時間空間資料挖掘、機器學習方法,監督、非監督、半監督等)、社交網路分析和大規模圖挖掘(圖模式挖掘、社區發現、網路聚類係數估計、網路關係挖掘、網路使用者行為分析、網路資訊傳播、社交網路應用,社交推薦(資訊、好友等))、大資料採礦(演算法的並行、分布式擴充、多源異構資料融合挖掘等)。資料採礦應用(醫學、教育、金融等)。研究熱點是大資料採礦、社交網路和大規模圖挖掘。

  下面,在說一下什麼是大資料採礦,它跟傳統的方法其本質區別是什嗎?大資料採礦可以分為三點:演算法的擴充、分布式架構開發、多來源資料融合分析。通過閱讀KDD’13,KDD’14,幾篇KDD’15的big data session中的文章,幾乎百分之百的文章都提到了演算法的scalability。由此可見,現今大資料採礦與傳統演算法的本質區別在於演算法的可擴充性。換句話說,現在研究的演算法在不僅僅能處理小規模資料集,當資料增加時也具有較大範圍內的適合。演算法的擴充,我理解為兩個方面:scale out-縱向擴充以及scale up-橫向擴充。縱向擴充最要在演算法底層、良好的資料結構設計或者並行設計方面。橫向擴充主要指演算法的分布式技術實現(自己編寫分布式演算法或者基於現有分布式架構實現)。這裡所說的“大資料”,在不同的挖掘領域(文本、圖結構、機器學習、映像)所對應的資料量是不同的。對文本來說,幾百萬個樣本可能就是“大資料”;對機器學習來說,千萬個樣本,幾十維、幾百維(MB/GB)就是“大資料”;對大規模圖挖掘來說,千萬級節點、億級邊(GB),也是“大資料”;對映像資料,百萬級映像(TB)完全可以稱得上“大資料”。那麼,要做演算法的可擴充性是不是必須用到並行技術、分布式編程技術?答案是一般需要,但並不絕對。演算法如果做到了極致,單台電腦也能處理“大資料”問題,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章僅僅在一台電腦上利用線程並行(多核)實現了電腦叢集完成的工作。有些文章是用MATLAB來完成的實驗(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用Hadoop叢集來完成實驗、有些是利用C/JAVA語言編寫分布式程式實現、有些是利用多核CPU的多線程並行實現。可見,演算法的實現方式不重要,重要的是演算法具有scalability。多來源資料融合以及挖掘分析也可以稱得上大資料採礦,可能不見得資料集有非常大,但是通過多種資料的融合發現了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了兩個異構資料集(text、image)進行relation-aware分析。特別是微軟亞洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,這篇文章就是融合了5個資料集(氣象資料、空氣品質資料、POI資料、路網資料、軌跡資料),利用傳統的資料採礦方法進行了融合分析,得到了較好的效果並進行了商業應用。附註:個人認為演算法也應該考慮擴充性,在面臨資料集增加時,看看是否還會能達到高效地預測結果。

  總結:在大資料研究中,更多的是偏理論演算法的研究。可以這樣說,資料採礦本身就是跟資料打交道,在特定情況下(資料集較大時或不斷增加時),資料採礦的任何一個研究點都可能會遇到“大資料”問題。所以,真正需要做的是找准一個問題,利用傳統方法進行挖掘,並測試在大規模資料集下傳統演算法是否可行,如果不可行,提出演算法的改進版或者自己動手實現一個新的、具有可擴充性的演算法,這就是大資料研究的過程(也包括異構資料融合分析)。

資料採礦研究方向、熱點以及對大資料研究的認識

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.