看“曹鵬SEO-搜尋引擎最佳化”視頻教程筆記

最後更新：2015-01-11 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：

首先，最值得學習的不是視頻中的知識，而是講者的這幾句話

1.本視頻中的SEO的方方面面都牽涉到了，只聽一遍會增長你的見識，但是更需要再花更多時間去挖掘更多知識和將知識系統化。這當然對於所有知識的學習都很有借鑒意義

2.SEO是一個既前衛又很活躍的學科，它貴在新，貴在經驗的積累、資訊的及時。很多電腦軟體方面的知識都是這樣，一方面要紮實的基礎，另一方面也不要忘記更跟隨知識的更新

以下的筆記是很不全面的，所以要想系統的學好SEO的知識，需要自己在去主動地通過各種途徑去學習搜尋引擎的原理、爬蟲的工作原理……更多的擴充知識

SEO：搜尋引擎最佳化

SEO最大的好處：流量。在網上找資訊，越來越多的人是通過搜尋引擎，80%的人只會看搜尋結果的第一頁，40%的人只會看第一頁的前四條，只有大概20%的人會往後再翻幾頁，如果你的網站搜尋結果比較靠後，那麼你的網站的訪問流量將會受到很大的影響

SEO目的：為了讓網民更容易找到你的網站或網頁

總體介紹：開篇；搜尋引擎介紹（重點介紹Google）；搜尋引擎最佳化（講解搜尋引擎的爬蟲是如何爬行Internet網的；搜尋引擎是如何排序搜尋結果的；什麼是可取的SEO，什麼是不可取的SEO；自然排名和競價排名的對比）

最佳化策略：關鍵字；關鍵字工具；網頁分析；搜尋引擎提交

注意事項：網域名稱、連結、Flash的使用、CSS；結尾

使用Google搜尋時候的搜尋規則、小技巧：+、-、“”的使用

！Google的創始人寫的“The Anatomy of a Large-Scale Hypertextual Web Search Engine”的論文，裡面講解了關於搜尋引擎的秘密，一定讓你受益匪淺

！Google的排序方法，PageRank

黃頁和搜尋引擎：黃頁是人工編纂的，更新慢數量少，搜尋引擎是自動爬行的；搜尋引擎檢索的是網頁，黃頁檢索的是網站；與搜尋引擎收錄相比，被黃頁收錄的門檻比較高；黃頁為搜尋引擎提供資料，被黃頁收錄好是有好處的，而且依然有不少人在使用黃頁。所以做SEO不能忽略黃頁的問題

內容廣告和搜尋廣告：

搜尋引擎爬蟲：

網頁快照：

搜尋引擎如何排名網頁。它基本上會看三樣東西：1.網頁內容；2.關鍵字出現的頻率和濃度；3.網站流行度

白帽子SEO：認真看Google的網站管理員支援中心，而且在不斷更新。有些不該做的事情如果做了反而影響網站的搜尋排名

黑帽子SEO：用作弊的方法達到搜尋引擎的排名最佳化，不要這樣做

什麼是關鍵字：當你搜尋的時候，在輸入框所輸入的那些內容就是關鍵字；對於網站來說，能對你網站的內容進行最相關最簡潔描述的字詞就是關鍵字

關鍵字挑選的建議：先列出一些你自己認為的關鍵字；查看你網站統計或伺服器日誌；參考別人的意見（潛在客戶、同事……）；用最佳化工具

stop words：那些太常用的，沒什麼明確含義的，會被搜尋引擎忽略的字，比如the、that……

長尾理論

關鍵字工具：wordtracker工具、keyword discovery工具、

HTML和SEO的關係很大：
    1.網頁的title，即<title>標籤，對於SEO是最重要的，盡量包含這頁的關鍵字，告訴別人這個網頁是做什麼的，不能太長也不能太短。intitle:運算子
    2.META標籤的關鍵字（keyword）和描述（description），因為很多人濫用這兩個標籤，寫了太多東西在裡面，所以搜尋引擎越來越不認這兩個東西
    3.網頁的<h1>重要於<h2>重要於<h3>……<h5>，這些對於SEO是很重要的，易被搜尋引擎爬蟲捕捉
    4.網頁的本文中包含越多的關鍵字越好，盡量多但不影響人的閱讀
    5.網頁中的圖片

提交網站網址到搜尋引擎；提交網站網址到黃頁

怎麼選擇網域名稱
1.如果網域名稱中包含關鍵字，將會大大提升排名

反向連結的尋找：Google的link:關鍵字；Link Survey軟體

！動態網站的網頁，應該在網頁地址中盡量避免?、=、&符號的出現，將動態網站預設的網址形式通過編寫程式變成對搜尋引擎有好的格式

robot.txt檔案放在網站的根目錄下，告訴搜尋引擎爬蟲，這個網站內不願意被爬行到的目錄、內容

轉載“詳解搜尋引擎的工作原理”

一名合格的seo工程師，一定會瞭解搜尋引擎的工作原理，對於百度和Google的原理幾乎差不多，只是其中有些細節不同，比如分詞技術等，因為國內搜尋一般都是百度，所以我們以後的課程都會針對於百度，當然，基礎類的只是同樣適用於Google！

搜尋引擎的工作原理其實很簡單，首先搜尋引擎大致分為4個部分，第一個部分就是蜘蛛爬蟲，第二個部分就是資料分析系統，第三個部分是索引系統，第四個就是查詢系統咯，當然這隻是基本的4個部分！

下邊我們來講搜尋引擎的工作流程：

什麼是搜尋引擎蜘蛛，什麼是爬蟲程式？

搜尋引擎蜘蛛程式，其實就是搜尋引擎的一個自動應用程式，它的作用是什麼呢？其實很簡單，就是在互連網中瀏覽資訊，然後把這些資訊都抓取到搜尋引擎的伺服器上，然後建立索引庫等等，我們可以把搜尋引擎蜘蛛當做一個使用者，然後這個使用者來訪問我們的網站，然後在把我們網站的內容儲存到自己的電腦上！比較好理解。

搜尋引擎蜘蛛是怎樣抓取網頁的呢？

發現某一個連結 → 下載這一個網頁 → 加入到臨時庫 → 提取網頁中的連結 → 在下載網頁 → 迴圈

首先搜尋引擎的蜘蛛需要去發現連結，至於怎麼發現就簡單了，就是通過網站連結接連結。搜尋引擎蜘蛛在發現了這個連結後會把這個網頁下載下來並且存入到臨時的庫中，當然在同時，會提取這個頁面所有的連結，然後就是迴圈。

搜尋引擎蜘蛛幾乎是24小時不休息的（在此為它感到悲劇，沒有假期。哈哈。）那麼蜘蛛下載回來的網頁怎麼辦呢？這就需要到了第二個系統，也就是搜尋引擎的分析系統。

搜尋引擎的蜘蛛抓取網頁有規律嗎？

這個問題問的好，那麼搜尋引擎蜘蛛抓取網頁到底有規律嗎？答案是有！

如果蜘蛛胡亂的去抓取網頁，那麼就費死勁了，互連網上的網頁，每天都增加那麼那麼那麼多，蜘蛛怎麼可以抓取的過來呢？所以說，蜘蛛抓取網頁也是有規律的！

蜘蛛抓取網頁策略1：深度優先

什麼是深度優先？簡單的說，就是搜尋引擎蜘蛛在一個頁面發現一個串連然後順著這個串連爬下去，然後在下一個頁面又發現一個串連，然後就又爬下去並且全部抓取，這就是深度優先抓取策略。大家看

在中就是深度優先的，我們假如網頁A在搜尋引擎中的權威度是最高的，假如D網頁的權威是最低的，如果說搜尋引擎蜘蛛按照深度優先的策略來抓取網頁，那麼就會反過來了，就是D網頁的權威度變為最高，這就是深度優先！

蜘蛛抓取網頁策略2：寬度優先

寬度優先比較好理解，就是搜尋引擎蜘蛛先把整個頁面的連結全部抓取一次，然後在抓取下一個頁面的全部連結。

呢，就是寬度優先的！這其實也就是大家平時所說的扁平化結構，大家或許在某個神秘的角落看到一篇文章，告誡大家，網頁的層度不能太多，如果太多會導致收錄很難，這就是來對付搜尋引擎蜘蛛的寬度優先策略，其實就是這個原因。

蜘蛛抓取網頁策略3：權重優先

如果說寬度優先比深度優先好，其實也不是絕對的，只能說是各有各的好處，現在搜尋引擎蜘蛛一般都是兩種抓取策略一起用，也就是深度優先+寬度優先，並且在使用這兩種策略抓取的時候，要參照這條串連的權重，如果說這條串連的權重還不錯，那麼就採用深度優先，如果說這條串連的權重很低，那麼就採用寬度優先！

那麼搜尋引擎蜘蛛怎樣知道這條串連的權重呢？

這裡有2個因素：1、層次的多與少；2、這個串連的外鏈多少與品質；

那麼如果層級太多的連結是不是就不會被抓取呢？這也不是絕對的，這裡邊要考慮許多因素，我們在後邊的進階中會降到邏輯策略，到時候我在詳細的給大家說！

蜘蛛抓取網頁策略4：重訪抓取

我想這個比較好理解，就是比如昨天搜尋引擎的蜘蛛來抓取了我們的網頁，而今天我們在這個網頁又加了新的內容，那麼搜尋引擎蜘蛛今天就又來抓取新的內容，這就是重訪抓取！重訪抓取也分為兩個，如下：

1、全部重訪

所謂全部重訪指的是蜘蛛上次抓取的連結，然後在這一個月的某一天，全部重新去訪問抓取一次！

2、單個重訪

單個重訪一般都是針對某個頁面更新的頻率比較快比較穩定的頁面，如果說我們有一個頁面，1個月也不更新一次。

那麼搜尋引擎蜘蛛第一天來了你是這個樣子，第二天，還是這個樣子，那麼第三天搜尋引擎蜘蛛就不會來了，會隔一段時間在來一次，比如隔1個月在來一次，或者等全部重訪的時候在更新一次。

以上呢，就是搜尋引擎蜘蛛抓取網頁的一些策略！那麼我們上邊說過，在搜尋引擎蜘蛛把網頁抓取回來，就開始了第二個部分，也就是資料分析的這個部分。

資料分析系統

資料分析系統，是處理搜尋引擎蜘蛛抓取回來的網頁，那麼資料分析這一塊又分為了一下幾個：

1、網頁結構化

簡單的說，就是把那些html代碼全部刪掉，提取出內容。

2、消噪

消噪是什麼意思呢？在網頁結構化中，已經刪掉了html代碼，剩下了文字，那麼消噪指的就是留下網頁的主題內容，刪掉沒用的內容，比如著作權！

3、查重

查重比較好理解，就是搜尋引擎尋找重複的網頁與內容，如果找到重複的頁面，就刪除。

4、分詞

分詞是神馬東西呢？就是搜尋引擎蜘蛛在進行了前面的步驟，然後提取出本文的內容，然後把我們的內容分成N個詞語，然後排列出來，存入索引庫！同時也會計算這一個詞在這個頁面出現了多少次。

5、連結分析

這一個步驟就是我們平時所做的做煩躁的工作，搜尋引擎會查詢，這個頁面的反向連結有多少，匯出連結有多少以及內鏈，然後給這個頁面多少的權重等。

資料索引系統

在進行了上邊的步驟之後，搜尋引擎就會把這些處理好的資訊放到搜尋引擎的索引庫中。那麼這個索引庫又大致分為以下兩個系統：

正排索引系統

什麼是正排索引？簡單的說，就是搜尋引擎把所有URL都加上一個編號，然後這個編號對應的就是這個URL的內容，包括這個URL的外鏈，關鍵詞密度等等資料。

搜尋引擎簡單的工作原理概況

搜尋引擎蜘蛛發現串連 → 根據蜘蛛的抓取策略抓取網頁 → 然後交到分析系統的手中 → 分析網頁 → 建立索引庫

OK，這節課可算是完了。太不容易啦我，今天只是對搜尋引擎工作的一個簡單的講說，因為搜尋引擎的非常複雜的一個系統，不可能幾十分鐘就可以全方位的講道，我們在進階或者進階教程中會慢慢的講到！

看“曹鵬SEO-搜尋引擎最佳化”視頻教程筆記

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

看“曹鵬SEO-搜尋引擎最佳化”視頻教程筆記

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support