頁面被蜘蛛抓取後將被如何建立索引?

來源:互聯網
上載者:User
關鍵字 網站優化

搜尋引擎的資料庫,是一個龐大複雜的索引資料庫。 你想知道你的網站頁面被蜘蛛抓取後,會被怎樣索引,搜尋引擎為你的這個頁面建立什麼樣的分頁檔嗎?

請你細細閱讀:

1首先,你的頁面是」新」的,也就是原創與偽原創。

2搜尋引擎蜘蛛抓取了您的網站後,讀取頁面編碼,作者,創建時間等屬性資訊。

3抓取網站內容資訊,及我們常用的搜尋引擎抓取類比工具得出來的文字內容。

不知道這裡能不能貼那麼多抓取資訊,這裡就不給出來,大家可以到HTTP://tool.chinaz.com/Tools/Robot.aspx?txtSiteUrl=www.ggspkf.com查看。

4將內容按切詞技術,包括正反向切詞,正向切詞,反向切詞,關鍵字最少話切詞,回饋切詞技術等,得到一系列目標關鍵字(專業名詞:術語)。 例如:百度輸入:GG視頻客服系統 注意出現標紅的文字,很簡單的我們可以得到如下目標關鍵字:

GG視頻客服系統

GG

視頻客服系統

客服系統

客服

系統

GG視頻

視頻

將以上7個目標關鍵字左右匹配,得出其他相關關鍵字,這裡不一一列出。

5抓取關鍵字出現的位置,在第3段類比抓取中,我們可以看到title keywords與description,及頁面內容。 這可以很明顯得看出關鍵字出現的位置。

6將第4段得到的目標關鍵字與第5段得到的位置資訊形成一個陣列文檔,如(GG視頻客服系統:10:1,2,4,5,6,9,11,23,55,65)(舉例,真實情況需要查看網站實際內容)

上面的意思是:GG視頻客服系統 這個關鍵字,在該頁面出現10次,位置分別處於1,2,4,5,6,9,11,23,55,65。 再將這個陣列及其他此時生成的檔存入到資料庫中。

7當有人搜索GG視頻客服系統的時候,搜尋引擎將讀取所有關于GG視頻客服系統 的陣列,根據一系列複雜的演算法,得到這些頁面的排名順序,展現給訪客。

上面提到的只是大概的過程,具體的索引生成當中,考慮的因素是巨大而繁瑣的,之後慢慢陳述。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.