搜尋引擎如何判斷文章是否原創呢

來源:互聯網
上載者:User

  文章是否原創,搜尋引擎應該也沒法從技術上作出絕對正確的判斷,甚至大致正確的也不能,無數的站長辛辛苦苦原創的文章經常排在許多垃圾部落格的轉載甚至是採集之後。到目前為止,本人認為搜尋引擎判斷文章是否原創的標準已經運用的有以下幾點:文章收錄時間、網站上的連結、網站的權重。

  文章收錄時間:你的文章是十年前就收錄了,我的一篇一模一樣的文章十年後才收錄,當然你的文章是原創的了。但是如果收錄時間距離較短的話就難以判斷了,因為權重高的部落格收錄更快,我的文章五天前就發表了結果一直不收錄,結果你轉載了我的文章幾分鐘後就收錄了,如果搜尋引擎認為你的文章是原創的而我的是抄襲的,那我豈不是太冤了嗎?

  網站上的連結:這個應該是判斷原創標準最主要的一點了吧。如果你的文章結尾有一句:文章轉載於某某SEO部落格,或者網站中某些關鍵詞上有鏈向該關鍵詞的連結,那麼判斷你的文章是轉載該部落格的應該會比較準的。因為如果你鏈向了該文章的頁面判斷還是比較準的,如果鏈向該站網域名稱的話判斷還是很難的。總不能你文章鏈向了他的部落格結果他轉載你的文章都被搜尋引擎認為是原創吧?

  網站的權重:這個做SEO的人應該更能理解一點。搜尋引擎認為一個高權重、高PR的部落格文章原創的可能性更大一些。

  其實還有一個標準可以判斷文章是否原創,即查看網頁的建立時間。例如你的文章是頁面是去年建立的,我的是今年才建立的,並且文章內容一模一樣,那麼十有八九我是轉載你的。如果還不能理解的話,就想想一下我們常用的 Word、Excel吧,是不是經常看到他們的最後修改時間呢?我們還經常用修改時間進行排列呢。相信這個記錄修改時間的技術對百度和Google來說絕對不是問題,這個技術性問題應該隨便一個程式員都可以解決的吧?不知道現在百度和Google有沒有利用這種技術。當然這個技術也是有缺陷的,就是如果我的文章是原創的那麼我可能會經常改動,那麼我的文章的最後一次修改時間可能要比轉載我的文章要晚,這個搜尋引擎可以記錄同一文章的所有修改時間來解決,這個技術上也很容易實現。但是這又遇到了兩個問題:第一、這意味著多大的工作量?百度、Google索引的可不是一台電腦上的東西,也不是一個網站的東西,而是數千億的頁面,記錄每次頁面的修改時間不知道在工作量和搜尋引擎伺服器反應能力上意味著怎樣的壓力;另一方面即使判斷出那個頁面時最先建立的了,但是如果站長把最先建立的頁面原內容刪除替換成轉載別人的文章,這又該咋判斷啊?

  寫了這麼多,大家可看到了每種判斷方式各有優缺點 ,搜尋引擎應該也特別希望能做出正確的判斷,不過先不說技術問題,光是判斷標準就夠令人抓狂的了。畢竟搜尋引擎只能根據人的命令才運行,如果我們無法給出絕對正確的判斷標準,那麼搜尋引擎也是沒法解決這個問題的……



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。