理解下什麼是Web資料採礦

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

Web挖掘的目標是從Web的超連結結構、網頁內容和使用日誌中探尋有用的資訊。 雖然Web挖掘使用了許多資料採礦技術,但它並不僅僅是傳統資料採礦的一個簡單應用。 在過去20年中,許多新的挖掘任務和演算法被相繼發明。 依據在挖掘過程中使用的資料類別,Web挖掘任務可以被劃分為三種主要類型:Web結構挖掘、Web內容挖掘和Web使用挖掘。

· Web結構挖掘:Web結構挖掘從表徵Web結構的超連結(簡稱連結)中尋找有用的知識。 例如:從這些連結中,我們可以找出哪些是重要的網頁,這是一項搜尋引擎採用的重要技術。 我們也可以發掘具有共同興趣的使用者社區。 這些任務在傳統的資料採礦中並不存在,因為在關聯式表格中並沒有連結結構。

· Web內容挖掘:Web內容挖掘從網頁內容中抽取有用的資訊和知識。 例如:根據網頁的主題,我們可以進行自動的聚類和分類。 比如:www.g8g5.com,這個站,最大的主題就是QQ表情。 雖然這些任務與傳統資料採礦的任務相似,但是我們依然可以為了各種不同的目的從網頁中根據模式抽取有用的資訊,例如商品描述、論壇回帖等。 而這些資訊可以被用作進一步分析來挖掘使用者態度。 這些任務也不是傳統的資料採礦任務。

· Web使用挖掘:Web使用挖掘從記錄每位使用者點擊情況的使用日誌中挖掘使用者的訪問模式。 這項任務也使用了許多資料採礦的演算法。 其中一項重要的議題是點選流資料的預處理,以便生成可以用來挖掘的合適資料。

搜尋引擎優化研究是與WEB資料採礦比較相關的一門技術,因為大部分的搜尋引擎工程師在思考如何設計搜尋引擎的時候,同時也會注重或者很大一部分是要解決搜尋結果排序公正的問題。

作者: 杭州思億歐網路科技有限公司

原載: HTTP://www.seo.com.cn/

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.