仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
經常有站長抱怨高權重網站採集了自己辛辛苦苦的原創內容,導致自己的原創變成其他網站的了,今天我通過實例和大家分享如何解決這個問題。
大家可以想像一下現實生活中智慧財產權的認定,最簡單的情況,如果A在雜誌上發表了一篇原創文章,B看到後不加改變的抄襲併發表到其他雜誌,A要起訴B者,法院很容易根據作品發表時間來判斷B抄襲了A,因為A發表作品在先( 如果B經過修改等二次加工手段再發表,那就要依據法院的鑒別和雙方的證據了),回到網路世界,特別是回到由百度制定規則來判別誰是原創的體系中,假定百度已判定發表于兩個不同網站的某文章內容一樣,誰是原創呢,很簡單, 誰先被百度收錄誰就是原創而不是誰先發表,有站長就說了,我的文章先發表,但過了n小時百度才收錄,而對方網站在百度收錄之前就採集了我的並被百度立即收錄了,所以我的就變成不是原創的了,對,問題就在這裡,收錄時間!
既然百度收錄我們的網頁內容速度慢,如何解決呢?要讓百度第一時間收錄網頁,一般有2種方法,一是使用PING服務,就是你發表了一篇文章後立即PING下百度告訴它文章的位址(關於PING服務介紹和使用請參考百度站長平臺, 也可以聯繫筆者),這一般針對權威的新聞源網站,小網站百度似乎不理睬,第二種方法就是本文重點討論的-選擇合適的發佈時間。
一、 百度蜘蛛爬行的間隔性和規律性
百度蜘蛛只是百度的一個程式,它自動訪問網頁抓取網頁內容,和我們俗稱的新聞小偷是一個原理,只不過這個小偷我們都歡迎。 蜘蛛不會時刻停在某網站上的,對於一個大型網站,可能會存在很多蜘蛛訪問很多不同的網頁,造成一個網站上每一秒都有蜘蛛在活動,但即使是這樣的大型網站,具體到某個網頁(比如網站首頁),蜘蛛造訪一般也會有一定的間隔, 時間從幾秒到幾個小時,也有幾天來一次的,這就是蜘蛛爬行的間隔性;
再談規律性,對特定網站(網頁)按照比較固定的週期爬行,如隔幾分鐘、幾小時訪問一次,下面通過一個例子來說明(資料通過Web Log Explorer分析並匯出到excel分類匯總)。
上圖是筆者統計的網站首頁蜘蛛爬行規律(本來想列出2天內共小時資料,發現資料太多不便組圖發表,只好選取1天內的上午8點到下午18點之間的資料分析)。
上圖的時間清單示蜘蛛的實際爬行首頁時間,總結列是筆者根據時間進行粗略概括(個別資料可以剔除),從上圖可以發現蜘蛛大致的爬行規律:
上午一般每個小時分為4個時段,分別為10-15分鐘、25-30分鐘、40-45分鐘、55-60分鐘
下午的每個小時也分為4個時段,但表現為整點(左右),分別為0分鐘、15分鐘、30分鐘、45分鐘,同時我分析第二天的資料,基本上也是如此,這堅定了我對蜘蛛規律性的判斷,實際上我統計了近10天資料,也有類似規律。
二、蜘蛛規律性實踐應用
摸清了蜘蛛爬行的規律,我們就可以提前一點準備好食物,我的試驗結果,17:43發佈文章並更新首頁成功,結果蜘蛛在17:44左右如期而至爬行首頁,並收錄相關文章。
三、總結:
本文對「秒收」的概念做了詳細的描述,秒收僅僅說明發佈的文章恰好在特定的時間被蜘蛛捕獲,從這個意義上說,只要蜘蛛還爬行網站、內容為原創,也能做到秒收而無所謂網站權重的高低, 至於被蜘蛛拖進百度索引庫裡後期如何加工提煉那排序是另外的話題了。 本文也為那些堅持寫原創文章而被採集被誤為李鬼的站長提供了一種保護原創的思路,有能力的站長可以在首頁添加一個自己的統計工具,專門記錄特定搜尋引擎爬行的時間,對照規律來有選擇的控制發表文章時間,做到胸有成竹, 每次蜘蛛來都有食物,慢慢的,蜘蛛會提高爬行頻率的,那樣就可以做到任何時間發表文章都能秒收,如同筆者演示的網站 蜘蛛爬行首頁時間間隔大約15分鐘以內,基本上任意時間發佈文章都可以稱為「秒收」, 文本由中國農業人才網-國內成立最早的農林漁牧行業人才網HTTP://www.5ajob.com原創,成稿于2013年新年第一天,有轉載的希望能留下連結歡迎交流,祝各位站長在新的一年裡心想事成,遠離K站!