仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
搜尋引擎的基本組成和及其功能
• 一 個 搜 索引擎程式主要由搜索器、索引子.檢索器和使用者介面等四個部分組成,主要存放裝置由頁面儲存體和存儲桶兩部分組成。
• 搜索器:爬蟲 抓取 壓縮 存儲庫
• 索引子:存儲庫提取網頁資訊,分析和分解,建立關鍵字索引,初步排序處理,存入存儲桶,即硬體存儲單元。
• 使用者通過使用者介面提交查詢,檢索器根據輸入關鍵字,在索引子和存儲桶進行查找,並且採用演算法進行對結果的最終排序
網頁資訊相關的頁面優先度演算法
• 以網頁內容為基礎的演算法:關鍵字在特殊位置出現的狀況:例如titile,meta,des.
• 關鍵字在頁面正文出現的狀況:關鍵字出現總次數,出現單詞平均間隔,關鍵字出現的頻率。
• 以網頁連結為基礎的演算法:例如PageRank演算法 HITS演算法 對於HITS不足補充加強的一些列演算法。
使用者行為相關頁面的演算法
• 不能忽略使用者對搜尋結果相關性的意見。 通過對WEB日誌的分析,調整頁面優先度
• 以點擊率為為基礎的Dir ect Hit 演算法:通過搜尋結果返回的點擊率和相關頁面停留時間長短來判斷頁面受歡迎程度。
• 其他使用者行為:例如通過使用者行為二次篩選,逐漸縮小搜尋結果與使用者期望的差距。 Cookie記錄,熱門關鍵字等。。
使網站被收錄
如何讓網站收錄
• 假如沒有給收錄,是否給搜尋引擎封殺?是否蜘蛛訪問你的網站?
• 所有網站資料呈現下降趨勢,甚至為零,並且多個搜尋引擎出現這種情況
• 通過網站日誌分析蜘蛛是否訪問網站:沒有連結,無效連結,無功而返。
我們要吸引連結。
怎樣使更多網頁被收錄
• 消除蜘蛛陷阱:robots.txt的設置 不要用蜘蛛訪問不到的技術顯示內容,例如快顯視窗,框架,FLASH,IMG,js 利用JS寫的下拉式功能表。 這樣一不能識別內容,二不能順著連結爬行。 動態URL位址過長,動態參數過多,? & = 等等,避免進入黑洞。。 製作404頁面,確保伺服器的回應。。 至少在10秒以內能打開網站。
• 減少被忽視的內容:精簡網頁,蜘蛛爬過一定大小的頁面就會停止爬行,加入網頁內容過多,可以用不必要的內容用JS來寫。。 FLASH裡面確保是你不想被收錄的內容,避免使用框架。
• 建立編目程式通道:設計網站地圖。
優化內容
搜索排名要素:主要的兩類
• 頁面要素:連結流行度,使用者行為,URL的長度 和深度,新鮮程度:內容,網站的結構,不要作弊
• 搜索請求要素:關鍵字突出度,密度,頻率,內容,TF*IDF,搜索項接近度
吸引連結到你網站
• 目前最重要排名因素還是由連結決定的。
• 內容為王在以前的互聯網上是站有統計性的,但引起互聯網變化的不是內容,和是連結。 這正的互聯網是能容易從一部分內容轉移到另外一部分內容。 1998年的GOOGLE出現,打破了傳統的基於關鍵字搜索排名演算法,而是基於連結分析,利用連結來評判網頁等級品質。 PR
• 連結的流行度:連結數量,連結品質,錨文本,
• 連結相關性:單純的錨文本來判定相關是不夠的,搜尋引擎會查看錨文本周邊的詞,查看整個頁面甚至整個連結來源網站上的詞。
連結的權重價值
• 內部連結<在同一個家族內<雙向連結<擁擠的單向連結<稀疏的單向連結
• 何為同一家族內連結:IP WHOIS 重複類似的錨文本 對這些權重都不會高。。
本文來自www.chenhuayi.com原創,轉載請注明出處。