原創內容的判斷 搜尋引擎的盲區

來源:互聯網
上載者:User

  8月10日,百度站長門診開放日,很多站長提到了網站原創內容被百度判定為轉載,而把轉載網站判定為原創的問題,而且lee也表示近期將會對網站原創內容的識別改進演算法。詳情見:8月10日百度站長門診開放日問題集錦。

  緊接著在8月11日,Google宣布將對搜尋結果進行重大調整,降低侵權網站的排名,Google在收到著作權持有人對網站大量侵權指控通知後,便會降低該網站在Google搜尋結果中的排名。搜尋引擎作為互連網最重要的流量入口,肩負著連結網站和使用者的,使用者、搜尋引擎、網站成為一個互惠互利的共生系統。但是,作為搜尋引擎痛點的原創內容判斷到底會對使用者和網站造成什麼影響?

  使用者篇:

  使用者早已習慣了通過搜尋引擎尋找自己需要的資訊,搜尋引擎是使用者的工具,一般使用者也很少關心資訊的來源,只關心資訊本身是否滿足需求。即絕大多數使用者不在乎資訊的創造者,也不在乎來源於哪個網站。如使用者通過搜尋引擎到達新浪或搜狐等大型網站,無形中就加強了對資訊的信任度。即使該資訊並非是大型網站的原創。

  搜尋引擎篇:

  搜尋引擎服務的對象是使用者,而不是網站;搜尋引擎的首要任務是為使用者提供有價值的資訊。一般使用者不在乎資訊的原創,但是,搜尋引擎為了維護搜尋結果的公平和整個網路環境秩序,必須在複雜的網路中判定原創和轉載,對大量產生高品質原創內容的網站更高的權重和更好的排名,帶來更多的流量;對大量轉載抄襲的網站降權。但這一切的前提是搜尋引擎能準確無誤的識別原創和轉載,不僅對百度,即使是Google,也沒能做到讓人滿意的地步。

  拋開技術背景,純粹從常識的角度,首先想到的就是時間,原創肯定比轉載的內容出現的要早。假設文章1由網站A原創,被新浪轉載後,其他各大網站又紛紛從新浪轉載,一時間網路上出現大量的轉載。據統計,搜尋引擎目前只發現收錄了整個互連網大概30%的資料,而這已經是一個天文數字,在資源有限的情況下,搜尋引擎無法做到即時監控整個互連網的資訊,於是,新浪成為文章1的原創者。

  其次,根據文章的著作權的資訊,越來越多的文章會帶有著作權說明,雖然很多無良的轉載會去掉這段資訊,但是,總會有人留下這段資訊,蜘蛛根據文章的著作權資訊來識別原創和轉載。理論上可行,事實上,很多無良的轉載不僅去掉了原來的著作權資訊,甚至加上了自己的著作權,這就造成了同一篇文章多個原創出處的現象。

  另外,搜尋引擎工作有抓取、分詞、去噪、提煉關鍵詞等過程,與文章內容並無多大關聯的著作權資訊往往在去噪過程中就被剝離。即使搜尋引擎調整演算法,保留的著作權資訊,同樣無法避免上述無良轉載的困境。

  網站篇:

  網站既要保證自己產生大量的高品質資訊來討好搜尋引擎,又要做好使用者體驗來挽留使用者,還常常受到搜尋引擎的欺負,就像一個受氣的小媳婦。很多站長常常抱怨搜尋引擎,卻忽略了一點,搜尋引擎的客戶是使用者,不是網站,搜尋引擎並沒有義務要給網站流量。

  但是,搜尋引擎的不公和技術缺陷,帶來可怕的馬太效應,大網站越來越強,小網站越來越弱。大網站隨意抄襲依舊排名堅挺,流量不斷。小網站辛辛苦苦的生產,最後卻是為他人做嫁衣,排名沒有,門可羅雀。

  可以看到,搜尋引擎的使用者不在乎資訊生產者,但是這卻關係到搜尋引擎上遊客戶——網站的死活,關係到整個互連網環境,也是搜尋引擎必須要克服的盲區。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。