仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
上篇文章站長從九個方面淺析搜尋引擎預處理(一)中,分別從提取文字、中文分詞、消除停止詞、雜訊消除四個方面和大家分享了「索引」預處理,相信這些基礎性的文章對大家也會有説明。 今天就接著上篇文章,繼續從去重、正向索引、倒排索引、連結關係計算、特殊檔的處理等五個方面和大家進行分享。
預處理是整個搜尋引擎中比較複雜的一部分,本文從九個方面分別和大家闡述一些比較基礎性的知識,讓大家有個瞭解,對於以後的網站設計以及SEO都會有説明。 當然,這些也只是自己學習到的一些知識,如果有不對的地方,還希望大家多指正。 好了,開始今天的正文。
第五、隨時去重:隨時去重是比較重要的一部分,因為互聯網的資訊量巨大,加上本身大家都喜歡分享,所以就導致很多重複的內容。 如果搜尋引擎不進行去重處理,那麼就會造成大量的重複爬取和收錄。 搜尋引擎常用來去重的方法是對頁面進行關鍵字指紋計算,典型的就是MD5演算法,會從頁面呢中選取最優代表性的一部分關鍵字進行計算,從而判斷這些文章是否是原創。 指紋計算常常精確到段落,因此一般性的偽原創是會被搜尋引擎發覺的,它很容易能判定你是在抄襲。
第六、正向索引:正向索引也簡稱索引,蜘蛛在對網頁進行提取、分詞、消噪以及去重後,會得到能反應主題的關鍵字。 搜尋引擎會把這些代表頁面主題的關鍵字組成一個個集合,同時記錄每個關鍵字在頁面上出現的次數、格式、頻率等,然後把這些一個個集合存儲進索引庫,在龐大的索引庫中,每個檔都對應一個ID,內容是一系列的關鍵字組合, 然後搜尋引擎就會不斷充足自己的索引庫並為排名做直接鋪墊。
第七、倒排索引:上邊提及的正向索引還不能使用者直接排名,使用者排名的是倒排索引。 大家試想,如果正向索引使用者排名的話,當使用者搜索某個關鍵字,則需要對所有包含該關鍵字的檔進行搜索,那麼工作量就會很大也不現實。 搜尋引擎常常把正向索引庫進行重新構造並轉換為倒排索引,倒排索引的結構為一個關鍵字對應多個檔,當使用者在搜索某個關鍵字時,就會在這個關鍵字下去搜索對應的檔,這樣處理速度就會快很多,也較容易實現。
第八、連結關係計算:連結關係的計算總是大家最為關注的其中之一,現在主流的搜尋引擎都會網頁之間的連結計算作為很重要的一部分,看頁面上哪些連結能夠傳遞權重,那麼只是起到引導作用。 特別是Google PR值就是根據這種連結關係進行的計算,其它搜尋引擎也有類似的計算,但不稱作PR。 連結關係往往非常複雜,計算也會花費很久的時間,這裡就不做深入的分享,只是給大家提及,讓大家知道預處理中有連結計算的存在。
第九、特殊檔的處理:網頁上往往不僅僅是HTML檔,還存在多種檔案類型。 搜尋引擎也會主動抓取以文字為基礎的PDF、word、Txt檔等。 我們在搜索的結果中也常常會發現此類搜尋結果。 但對於flash和圖片,雖然搜尋引擎一直在努力,但距直接讀取其內容的距離還很遠,所以大家如果想做SEO,儘量少採用圖片和FLASH。 應該儘量使用較多的文字讓搜尋引擎毫無障礙的爬行。
到這裡,通過隨時去重、正向索引、倒排索引、連結關係計算、特殊檔的處理等五個方面來把本章節分享完,加上上篇文章,總共有九個方面需要站長朋友去瞭解,希望看了本文能對大家有説明。 好了,本文就到這裡,大家有好的想法歡迎和我交流,本文來自:深圳網站建設,網址:HTTP://www.zijiren.net,如果有不對的地方,還歡迎指正,也歡迎大家轉載,轉載請保留連結,謝謝!