SEOer需要瞭解搜尋引擎的索引器

來源:互聯網
上載者:User

  一個合格的SEOer需要對搜尋引擎的結構有一定的瞭解,這樣在進行seo時可以做到心中有數,有條不紊,而不必拘泥於固定的最佳化方法和技巧。而此時要分析的索引器,它是搜尋引擎結構中一個比較重要部分。

  索引 器第對搜尋引擎是比較重要的,比如:我們熟悉的百度新聞,它是“由機器每5分鐘自動選取更新”,比較具有即時性,並且資料量也是相當的大。此時索引器的演算法對索引器的影響就顯得十分突出了。因此有人說,一個搜尋引擎的有效性在很大的程度上取決於索引器的品質(精確的說應該歸功於索引器的索引演算法)。

  下面我們一起來系統瞭解索引器的功能,索引器的功能是理解搜尋器(之前我在A5上發表過一篇“SEO需知其所以然之——搜尋器”的介紹)搜尋的資訊,並對收集回來的網頁進行分析,提取相關網頁資訊,如網頁的關鍵詞,頁面使用的編碼,網頁URL等等。然後更具搜尋引擎的相關演算法進行大量複雜的計算,得到一些相關資訊,然後利用這些相關資訊建立相應的網頁索引資料庫。

  1. 索引項目

  通過前面的介紹,你一定瞭解了索引器的一些知識,下面有必要對索引項目有所瞭解。什麼是索引項目了?舉個例子,比如我們平時所說的索引器索引的時間,編碼,作者,標題等等都屬於索引項目。

  索引項目可以分為兩種,一種是客觀索引項目,另一種是內容索引項目。其中客觀索引項目是與文檔的內容無關的,比如,我們發一遍文章,裡面的發帖作者,發帖時間,文章地址等等都是客觀索引項目;而內容索引項目是反應文檔內容的,其理解起來就很容易了,在此就不舉例了。內容索引又可以分為單索引項目和多索引項目兩種。

  2. 中文分詞

  提供中文分詞,你一定會想到全球最大的中文搜尋引擎——百度,因為百度搜尋引擎在中文分詞上有著深厚的技術功底。一般搜尋引擎索引英語單詞或者句子時候,是比較容易提取的,因為英文單詞之間是用空格分開的,而這一切都是約定俗成的。但是對於漢語書寫的句子,就不能憑空格區別了,必須要進行詞語的切分,也就是我們常說的分詞。

  中文分詞是文本提取的基礎,對於輸入的一段中文,然後進行中文分詞,然後搜尋引擎達到識別語句含義的效果。

  中文分詞的方法一般可以分兩種,一種是機械匹配方法(基於字串匹配的分詞方法),另一種是機率統計方法。其中機械匹配是建立在已有的詞典大全上的,是和裡面詞語匹配而得到的分詞結果。它一般分詞方法有:正向最大匹配法(由左到右的方向),逆向最大匹配法(由右到左的方向),最少切分(使每一句中切出的詞數最小)和雙向最大匹配法(進行由左到右、由右到左兩次掃描)。機率統計方法是通過機率統計後,然後再進行處理而得到分詞。

  3. 對seo的啟示

  根據上面分析搜尋引擎索引器的原理,我們可以粗略判斷一個搜尋引擎的技術成熟程度,例如上面說到百度5分鐘自動更新新聞。如果網站是新聞資訊類的,可以注重資訊發布的即時性;我們在確定網站的核心關鍵詞和關鍵詞時根據中文分詞原理,去掉冗餘的詞語,把網站最核心的關鍵詞反饋給搜尋引擎,這樣搜尋引擎會給網站一個不錯的排名。

  seo技術不僅僅是這一方面就能攻無不克的,還需要整體瞭解搜尋引擎的結構和工作原理的。當然我會在後面陸續分享一些搜尋引擎的知識,並分享自己根據這些原理和幾年的seo實戰經驗。

  本文由九州站長學院(http://www.9cms.com/)原創,首發於A5,轉載請註明文章來源;同時熱忱歡迎廣大從事seo的朋友一起交流,共同進步。謝謝!



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。