搜尋引擎的資料分析系統

來源:互聯網
上載者:User
關鍵字 SEO

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

資料分析系統,是搜尋引擎整個工作流程的第二個系統,也就是既搜尋引擎蜘蛛抓取系統的後一個系統,搜尋引擎的資料分析系統主要用來處理蜘蛛抓取回來的網頁,今天呢,小強會給你詳細的講解, 搜尋引擎的資料分析系統的工作流程及幾個重要的知識點。 我們剛剛說了,資料分析系統主要是分析蜘蛛抓取回來的內容,那麼怎樣分析呢?主要涵蓋以下幾點。

網頁結構化

什麼是網頁結構化呢?我們要知道網頁,是由html組成,搜尋引擎蜘蛛最後抓取回來的,也都是html的字碼頁面,簡單的說,網頁結構化,就是刪掉html代碼,然後留下其中的內容,如下圖,圖1是網頁結構化之前, 圖2就是網頁結構化之後。

  

網頁結構化之前

  

網頁結構化之後

網頁的內容消噪

在網頁結構後之後,依然存在著一些搜尋引擎不需要的內容,比如說巡覽列的功能表文字,底部的版權資訊等,這些呢,都是搜尋引擎不需要的,搜尋引擎只需要內容,那麼在這個時候就會對網頁結構化之後的內容進行消噪處理,簡單的說, 消噪就是把內容之外的文字全部刪掉,比如功能表上的文字,底部版權的文字等等。

那麼搜尋引擎的資料分析系統怎麼判斷哪些是功能表文字哪些是版權資訊呢?

其實很簡單,就是對比,比如一個內容頁,除了內容不一樣,其他的內容幾乎一樣,比如導航,每個頁面都有導航,而且文字也一樣,版權也是,當然也會根據html的源碼去分析。

對頁面的查重

對頁面的查重其實很好理解,就是搜尋引擎蜘蛛在抓取你這個網站所有的頁面中,用你這個頁面去對比抓取的頁面,看看內容是否有重複,如果有,那麼就刪掉。

分詞

分詞是什麼東西呢?簡單的說,就是把一句話切割成N個詞語,分詞又分為中文分詞和英文分詞,搜尋引擎有一本自己的資料庫字典,裡邊有好多詞語,然後對照著字典進行分詞;其中還有一點,就是在分詞的時候,會把一些無用的字去掉,比如,的 、啊等等。

頁面對應URL的分析

這個是網頁分析系統的最後一個步驟,主要是根據一些外在因素、內在因素對這個頁面對應URL的權重值的判斷,比如外鏈、內鏈等,這個影響到這個頁面關鍵字的排名。

本文位址:HTTP://www.shizhanqiang.com/2012071065.html

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.