資料採礦 與 Web開發何去何從

來源:互聯網
上載者:User

標籤:ott   實現   strong   base   解釋   gen   決策   process   blog   

(0)引子

以下以現實生活中的一個執行個體引出本部落格的探究點。或許類似的情況正發生在你的身邊。

小弟工作5年了,近期有點迷茫。

上一份工作在一家比較大的門戶網站做web開發和移動互連網資料採礦(人手比較緊。同一時候做)。後來跳槽到BAT之中的一個做資料採礦。

資料量倒是很大。可是感覺沒有多大意思——就是分析日誌,弄報表而已。

之前已經的高效能web開發經驗全然用不上。感覺自己還是喜歡做開發,能和業務相關的。

可是資料採礦大。資料近期挺火的,也是比較糾結。

事實上。這也是非常多人的癥結,包含我個人也是迷茫~~~在此,請求博友們獻言獻策!

不勝感激!


(1)大資料與數學的恩怨
一是公司原來沒有一項業務。如今要把一些機器學習這個東西跑起來(從無到有)。二是在你接手的時候公司已經有一定基礎了。如今要把效能調上去(從差到優)。前者全然不用不論什麼數學,先用別人有的模組/代碼把系統擼起來是王道。後者看詳細問題。大多數情況不用數學。在偏研究的地方比方Google X的某些部門還是實用的,可能須要比較好的數學功底,一些deep learning(機器學習)的機構,如百度鳳巢研究院或者微軟亞洲研究院等。

可是,對於一般的資料分析、資料採礦項目組,特別是對於某一分類器,大多數時候還是看feature找的好不好,找到一個優秀的feature賽過苦逼的在那裡調優一萬年(身在以KPI優先的公司和拿來就用的大環境,利用已有的開源Lib包)。學好線性代數。統計和凸最佳化就出門打怪吧。攢系統經驗和dirty trick才是王道。

當然我也不是說就不要搞數學。僅僅是假設你去公司的話,在學好線代統計凸最佳化的前提下,相同的時間花在學電腦系統的構建和系統性的思考方法上,比學習數學更划算。在大部分的ML研究裡。還是微積分和線性代數、機率統計的功底最重要。


(2)大資料衍生的工作崗位

資料研發project師側重於研發,這塊我瞭解的不多,我理解的是主要是資料倉儲開發那塊。

資料分析師側重分析,主要是結合業務方需求做些相關的資料分析工作。發現問題,找出問題。提出解決方式。

資料採礦側重挖掘,主要用些資料採礦演算法或者機器學習演算法做些分類和預測或者其他工作,比方說流失。違約。推薦等等。

資料產品經理偏重產品經理,主要是負責資料產品的相關pd工作。

資料產品就是基於資料分析或者挖掘研發出來的產品。

假設硬要分析的話,資料研發project師要求有一定的開發功底。工作偏向於資料系統的開發。

資料分析師更像傳統的BI。而資料採礦project師更是以特定需求為目標的資料採礦工作,比方做人群的偏好挖掘。資料產品經理應該就是產品方向了,以資料業務/產品為目標的產品經理。

說到最後,事實上除產品經理崗位的另3個崗位,工作職責還是非常相似的,主要工作內容以部門要求為準。

引用百科的說法是。資料研發project師:搭建基礎設施,讓大資料的儲存、處理、計算能在要求的時間內,以合理的成本完畢。資料分析師:發現問題,分析問題,得出結論。為決策作支援。資料採礦project師:通過建立模型。預測、區分感興趣的對象。

以下通過幾張圖說明:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" >







(3)DM 與 ML

1. DM更應用化。ML更偏研究與演算法(所以公司一般有資料採礦project師,機器學習研究員)

2. ML的問題常常是明白定義的。包含資料集及目標(且資料集是固定的);DM通常僅僅定義目標,甚至連目標也沒有(給你一堆資料,給我找出有價值、有意思的東西出來);

   在定義了目標的情況下,DM能夠使用非固定的資料來源

3. ML僅僅是DM使用的方法的一種。DM還能夠使用其它的方法(比方統計,比方直接看資料)

4. 作為一門交叉學科。ML是DM的一門重要基礎,可是DM還有其它的基礎學科。最重要的是統計與資料庫

5. DM的重點是資料。

所以做DM的人可能花80%的時間在用各種方式倒騰資料上。而僅僅花會20%的時間在演算法上。而對ML可能相反,80%的時間都在讀Paper,實驗演算法上。20%的時間用在處理資料上


(4)資料採礦 之 文本挖掘 

資料採礦(Data mining),又譯為資料探勘、資料採礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases。簡稱:KDD)中的一個步驟。資料採礦通常是指從大量的資料中通過演算法搜尋隱藏於當中資訊的過程。

資料採礦通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

文本挖掘有時也被稱為文字探勘、文本資料採礦等。大致相當於文字分析,一般指文本處理過程中產生高品質的資訊。高品質的資訊通常通過分類和預測來產生。如模式識別。

文本挖掘通常涉及輸入文本的處理過程(通常進行分析,同一時候加上一些衍生語言特徵以及消除雜音,隨後插入到資料庫中) ,產生結構化資料,並終於評價和解釋輸出。‘高品質‘的文本挖掘一般是指某種組合的相關性,新穎性和趣味性。

典型的文本挖掘方法包含文本分類。文本聚類,概念/實體挖掘,生產精確分類,觀點分析,文檔摘要和實體關聯模型(即。學習已具名實體之間的關係) 。

借用高斯的一句話並進行改寫送給全部做資料採礦、文本挖掘的人。

“對資料採礦、文本挖掘的無知不是沒有相關知識,而是過於依賴資料採礦、和文本挖掘而忽視其它”。

文本資料採礦(Text Mining)是指從文本資料中抽取有價值的資訊和知識的電腦處理技術。顧名思義,文本資料採礦是從文本中進行資料採礦(Data Mining)。從這個意義上講,文本資料採礦是資料採礦的一個分支。

文本挖掘方法:1.文本分類,是一種典型的機器學習方法,一般分為訓練和分類兩個階段。

2.文本聚類,是一種典型的無監督式機器學習方法,聚類方法的選擇取決於資料類型。3.資訊抽取。

4.摘要。

5.壓縮。

當中,文本分類和聚類是兩種最重要最主要的挖掘功能。

挖掘工具:1.IBM DB2 intelligent Miner。2.SAS text miner。3.SPSS Text Mining。4.DMC TextFilter(純文字抽出通用程式庫)

應用:文本挖掘傳統商業方面的應用主要有,企業競爭情報、CRM、電子商務網站、搜尋引擎,如今已擴充到醫學、保險和諮詢行業。


(5)人工智慧、機器學習、統計學和資料採礦的前世今生
我假定題主是想得到一個清晰的圖,上面有各個領域清晰的分界線。

因此。在這裡我嘗試用我最簡單的方式來解釋這個問題。

機器學習是一門涉及自學習演算法發展的科學。這類演算法本質上是通用的。能夠應用到眾多相關問題的領域。

資料採礦是一類有用的應用演算法(大多是機器學習演算法)。利用各個領域產出的資料來解決各個領域相關的問題。

統計學是一門研究如何收集。組織。分析和解釋資料中的數字化資訊的科學。統計學能夠分為兩大類:描寫敘述統計學和判斷統計學。

描寫敘述統計學涉及組織,累加和描繪資料中的資訊。

判斷統計學涉及使用抽樣資料來判斷整體。

機器學習利用統計學(大多是判斷統計學)來開發自學習演算法。
資料採礦則是在從演算法得到的結果上應用統計學(大多是描寫敘述統計學),來解決這個問題。
資料採礦作為一門學科興起,旨在各種各樣的行業中(尤其是商業)求解問題,求解過程須要用到不同研究領域的不同技術和實踐。
1960年求解問題的從業者使用術語Data fishing來稱呼他們所做的工作。

1989年Gregory Piatetsky Shapiro使用術語knowledge Discovery in the Database(KDD,資料集上的知識發掘)。1990年一家公司在商標上使用術語資料採礦來描寫敘述他們的工作。現現在現現在資料採礦和KDD兩詞能夠交換使用。

人工智慧這門科學的目的在於開發一個類比人類能在某種環境下做出反應和行為的系統或軟體。

因為這個領域極其廣泛,人工智慧將其目標定義為多個子目標。然後每一個子目標就都發展成了一個獨立的研究分支。

這裡是一張人工智慧所要完畢的主要目標列表(亦稱為AI問題)
1、Reasoning(推理)
2、Knowledge representation(知識表示)
3、Automated planning and scheduling(自己主動規劃)
4、Machine learning(機器學習)
5、Natural language processing(自然語言處理)
6、Computer vision(電腦視覺)
7、Robotics(機器人學)
8、General intelligence or strong AI(通用智能或強人工智慧)
正如列表中提到的,機器學習這一研究領域是由AI的一個子目標發展而來。用來協助機器和軟體進行自我學習來解決遇到的問題。
自然語言處理是還有一個由AI的一個子目標發展而來的研究領域。用來協助機器與真人進行溝通交流。


電腦視覺是由AI的目標而興起的一個領域,用來辨認和識別機器所能看到的物體。
機器人學也是脫胎於AI的目標,用來給一個機器賦予實際的形態以完畢實際的動作。
它們之間有層次等級的區分嗎。應該是如何一回事?
解釋這些科學和研究層次關係的一個方法是分析其曆史。


科學和研究的起源

統計學——1749年
人工智慧——1940年
機器學習——1946年
資料採礦——1980年
統計學的曆史公認起源於1749年左右。用來表徵資訊。研究人員使用統計學來表徵國家的經濟水平以及表徵用于軍事用途的物質資源。

隨後統計學的用途擴充到資料的分析及其組織。


人工智慧的曆史碰巧存在兩種類型:經典的和現代的。經典人工智慧可在古時的故事和著作中看得到。然而,1940年當人們在描寫敘述用機器模仿人類的思想時才出現了現代人工智慧。


1946年,作為AI的分支。機器學習的起源出現了,它的目標在於使機器不通過編程和明白的硬接線進行自我學習來對目標求解。

能否夠這樣說,它們是利用不同方法解決相似問題的四個領域?

可以這麼來說(統計學,人工智慧和機器學習)是高度相互依賴的領域,沒有其它領域的引領和協助,他們不可以單獨存在。

非常高興能看到這三個領域是一個全域領域而非三個有所隔閡的領域。
正如這三個領域是一個全域領域。它們在解決共同目標時發揮了自己的優勢。因此,該方案適用於很多不同領域中。由於隱含的核心問題是一致的。
接下來是該資料採礦出場了,它從全域擷取解決方式並應用到不同的領域(商業、軍事、醫學、太空)來解決同一隱含本質的問題。

這也是資料採礦擴大其受歡迎程度的時期。

我希望我的解釋已經回答了答主所提問一切疑問。我相信這能清晰地協助不論什麼一個想要理解這四個領域關鍵點的人們。假設你對該話題有不論什麼想要說的或者要分享的。請在評論裡寫下你的想法。

(6)總結


檔案夾---相關文章

高速學Python 和 易犯錯誤(文本處理)

Python文本處理和Java/C比對

十分鐘學會Python的基本類型

高速學會Python(實戰)

大資料處理之道(十分鐘學會Python)



資料採礦 與 Web開發何去何從

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.