目前主流的搜尋引擎按照其功能大致可以分為可劃分為下載、分析、索引、查詢4大系統。其中分析系統在搜尋引擎的架構中主要承擔了網頁結構化、網頁消重、文本分詞及網頁重要性的計算(例如Google的PR)這四項基本任務。可以說,搜尋引擎的分析系統在網站排名等方面起著決定性的作用,通過分析搜尋引擎的分析系統,可以更好的指導我們進行網站的最佳化工作,在這裡,筆者根據自己的一些見解,
首先,筆者對搜尋引擎的分析系統的工作步驟做了簡單的介紹:
第一.讀取Page庫中下載系統通過爬蟲下載到的原始網頁。
第二.通過建立標籤樹並從網頁中抽取有價值的屬性,完成從原始網頁打包成一個網頁對象的過程,即網頁結構化的過程。
第三.丟棄冗餘的頁面,僅保留一個相似或相同的網頁傳給分詞模組,實現網頁消重。
第四.文本分詞模組將網頁的本文切分成以詞彙為單位的集合。
第五.最後將分析的結果發往索引模組,進行索引入庫。
瞭解到了搜尋引擎的分析系統的工作流程,那麼,筆者認為,我們應該針對搜尋引擎的分析系統做好以下的最佳化工作。
1.從分析系統的第一步和第二部過程,告訴我們要明確需要保留的資訊
網頁是有HTML語言編寫而成是一個半結構化的對象,要將其中有價值的資訊,例如標題和本文保留下來,而將無用的資訊丟棄,例如HTML標籤,主要是通過網頁結構化,一般來說,TITLE標籤,MEAT標籤,H標籤是搜尋引擎認為最重要的網頁資訊。比如,針對TITLE標籤,在搜尋引擎蜘蛛爬行的過程中,< TITLE >與< /TITLE >之間的內容往往是蜘蛛們第一個擷取到網頁的文字內容。除此之外,錨文本,網頁本文都是有價值的資訊,要加以保留和重視。
2.從分析系統的第三步來看,告訴我們要重視網頁的內容建設
網路中的網頁數以億計,對海量網頁進行儲存和處理是一項艱巨的任務,而且這些網頁中又包含很多相同或者類似的頁面。所以搜尋引擎的分析系統在正式對網頁進行分析之前首先要做的工作就是網頁消重。搜尋引擎中把這4種頁面看做是相同或相似的,兩個網頁的內容和格式上完全相同、兩個網頁的內容完全相同,但格式不同、兩個網頁有部分重要的內容相同並且格式相同、兩個網頁有部分重要的內容相同,但格式不同。從搜尋引擎的分析系統看網站最佳化,可見網頁內容的獨特性很重要,所以做好原創是有意義的。
3.從網頁重要性的計算,也就是分析系統的第四五部來看,做好網頁的權重是很有意義的
在這裡,拿Google的PR值舉例,它是Google用來標識網頁的等級/重要性。百度也有類似的系統,所以我們應該根據它們的演算法,做好提高網頁重要性的工作,比如匯入高品質的連結,寫一些高品質的軟文帶上網頁連結並發布到大型網站,比如提供有價值的網頁內容,這些都可以提高網頁的權重,具體的做法,站長朋友都知道,這裡不再詳述。
通過分析搜尋引擎的分析系統,我們清楚的知道我們應該如何做好網站最佳化。以上純屬小肖個人的一些觀點,希望能和大家一起討論學習,最後,文章著作權歸屬:廣州人流醫院 :http://www.gzrlw.net/,歡迎大家轉載,但是請大家轉載的時候保留連結,謝謝大家的理解和合作!