程式員怎能不知道什麼是資料採礦,程式員怎能資料採礦

來源:互聯網
上載者:User

程式員怎能不知道什麼是資料採礦,程式員怎能資料採礦

視乎已經聽到或看到無數遍資料採礦了,那麼,你知道那是什麼嗎?關於什麼是資料採礦,很多學者和專家給出了不同的定義,以下我們列出幾種常見的說法:
“簡單地說,資料採礦是從大量資料中提取或‘挖掘’知識。該術語實際上有點用詞不當。資料採礦應當更正確地命名為‘從資料中挖掘知識’,不幸的是它有點長。許多人把資料採礦視為另一個常用的術語‘資料庫中知識發現’或KDD的同義字。而另一些人只是把資料採礦視為資料庫中知識發現過程的一個基本步驟。” ——《資料採礦:概念與技術》(FreeEIM J. Han and M. Kamber)
“資料採礦就是對觀測到的資料集(經常是很龐大的)進行分析,目的是發現未知的關係和以資料擁有者可以理解並對其有價值的新穎方式來總結資料。”——《資料採礦原理》(David Hand, et al)
“運用基於電腦的方法,包括新技術,從而在資料中獲得有用知識的整個過程,就叫做資料採礦。”——《資料採礦--概念、模型、方法和演算法》(Mehmed Kantardzicopeneim)
“資料採礦,簡單地說,就是從一個資料庫中自動地發現相關模式。”——《構建面向CRM的資料採礦應用》(Alex Berson, et al)
“資料採礦(DM)是從大型資料庫中將隱藏的預測資訊抽取出來的過程。”——《資料採礦:機遇與挑戰》(John Wang)
而作為資料採礦領域的華人第一人,韓家煒教授在《資料採礦:概念與技術》的教學投影片中,給出一個更清晰的定義:“資料採礦,就是從大型資料庫中抽取有意義的(非平凡的,隱含的,以前未知的並且是有潛在價值的)資訊或模式的過程。”
這裡我們可以看到資料採礦具有以下幾個特點:
l         基於大量資料:並非說小資料量上就不可以進行挖掘,實際上大多數資料採礦的演算法都可以在小資料量上運行並得到結果。但是,一方面過小的資料量完全可以通過人工分析來總結規律,另一方面來說,小資料量常常無法反映出真實世界中的普遍特性。
l         非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育主筆所說的“經過我的計算,我發現了一個有趣的現象,到本場比賽結束為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!”那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的資料採礦新手卻常常犯這種錯誤。
l         隱含性:資料採礦是要發現深藏在資料內部的知識,而不是那些直接浮現在資料表面的資訊。常用的BI工具,例如報表和OLAP,完全可以讓使用者找出這些資訊。
l         新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以協助企業獲得進一步的洞察力。
l         價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說資料採礦只是“屠龍之技”,看起來神乎其神,卻什麼用處也沒有。這隻是一種誤解,不可否認的是在一些資料採礦項目中,或者因為缺乏明確的營運目標,或者因為資料品質的不足,或者因為人們對改變商務程序的抵制,或者因為挖掘人員的經驗不足,都會導致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,資料採礦的確可以變成提升效益的利器。
“資料採礦”這個術語是在什麼時候被大家普遍接受的,已經難以考證,大約在上世紀90年代開始興起。其中還有一段趣話。在科研界,最初一直沿用“資料庫中的知識發現”(即KDD,Knowledge Discovery in Database5z20)。在第一屆KDD國際會議中,委員會曾經展開討論,是繼續沿用KDD,還是改名為Data Mining(資料採礦)?最後大家決定投票表決,採納票數多的一方的選擇。投票結果頗有戲劇性,一共14名委員,其中7位投票贊成KDD,另7位贊成Data Mining。最後一位元老提出“資料採礦這個術語過於含糊,做科研應該要有知識”,於是在科研界便繼續沿用KDD這個術語。而在商用領域,因為“資料庫中的知識發現”顯得過於冗長,就普遍採用了更加通俗簡單的術語——“資料採礦”。
嚴格地說,資料採礦並不是一個全新的領域,它頗有點“新瓶裝舊酒”的意味。組成資料採礦的三大支柱包括統計學、機器學習和資料庫等領域內的研究成果,其它還包含了可視化、資訊科學等內容。資料採礦納入了統計學中的迴歸分析、判別分析、群集以及信賴區間等技術,機器學習中的決策樹、神經網路等技術,資料庫中的關聯分析、序列分析等技術。

原文:程式員怎能不知道什麼是資料採礦



相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.