仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
預處理相信大家都不會陌生,很多站長或者其它SEO資料中被稱作「索引」。 對於搜尋引擎來說,索引是最重要的一個步驟,和網頁的爬行抓取以及排名都有著直接的關係。 搜尋引擎抓取的頁面並不能被用於排名,因為互聯網上的資料是巨大的,所以當使用者在搜索的時候不可能即時地從所有網頁中進行檢索並返回,而是從搜尋引擎自己的資料庫中返回給使用者結果。 這個資料庫是事先經過處理的,所以就有預處理的說法。
預處理是大家看不到的,都是搜尋引擎的幕後程式完成,本從從九個方面和大家淺析關於預處理的各個階段,希望站長們看了有個大概的瞭解,由於篇幅有限,今天就從三個方面先進行分享,如果有不對的地方,還請大家多指正。
第一、提取文字:現在的互聯網資訊還是以文字為主,所以搜尋引擎的重點還是文字,平時我們從網頁上看到的包括很多圖片、視頻以及JS技術等都無法使用者排名的內容。 所以對於搜尋引擎而言,首先要做的就是提取網頁中的文字。 除了一些body中常見的文字,還會提取包括Meta標籤中的文字以及圖片的ALT標籤等等。 另外一個就是錨文字,錨文字在網頁排名中的作用非常重要。
第二、中文分詞:分詞其實對於Google而言也存在,不過通常講的都是中文分詞。 對於英文而言,只需要根據單詞進行拆分就行,而中文的情況往往比英文要複雜的多,所以對於中文搜尋引擎,特別是百度,要考慮中國使用者的使用方式,所以對待分詞上也有自己獨特的地方。 在網站優化上,我們對於分詞能做的很少,只能加粗或者利用H標籤等告訴搜尋引擎哪些字連在一起是屬於一個詞。
第三、消除停止詞:現實生活中我們時常會帶有一些感歎詞或者助詞來表達語義,互聯網上同樣也是如此,無論是中文還是英文,都會存在一些出現頻率很高,但對內容沒有實質影響的詞。 常見的有「的」「得」「地」等助詞,也有「啊」「哈」「呀」之類的感歎詞,還會有「卻」、「以」之類的副詞以及介詞。 在搜尋引擎中,這些沒有實質性的詞語統稱為停止詞。 搜尋引擎在抓取網頁時會去掉這些停止詞,從而使主題更加突出,也會減少大量的計算。
第四、雜訊消除:大家可能不理解什麼叫雜訊,在互聯網中,雜訊指的是對網站的主題沒有實質性説明的頁面元素,比如很多版權聲明文字、導航條還有廣告內容。 很多博客中的文章分類頁面、歷史歸檔頁面都屬於雜訊元素。 互聯網的內容是巨量的,所以,搜尋引擎不可能把這些無實質性的內容都一一抓取並且索引,會在抓取時先消噪,他會根據HTML頁面中的標籤來進列區域區分,把剩下的主體內容進行抓取。 從這一點上來看,我們應該儘量展現足夠多的文字內容提供給搜尋引擎而不是其它因素。
到這裡,通過提取文字、中文分詞、消除停止詞、雜訊消除等四個方面和大家分享了搜尋引擎的預處理,這裡只是給大家簡單的羅列了以下,其實情況要複雜的多,細節性的東西也更多。 這裡只是抛磚引玉,希望有更多的深入瞭解的朋友也進行分享,讓大家共同進步。 搜尋引擎的預處理總共有九個階段,本文先總結其中前四個,剩下的五個以後會繼續和大家分享。
好了,本文就到這裡,大家有好的想法歡迎和我交流,本文來自:深圳網站建設,網址:HTTP://www.zijiren.net,如果有不對的地方,還歡迎指正,也歡迎大家轉載,轉載請保留連結,謝謝!