頁面準確識別 搜尋引擎義務並非恩賜

來源:互聯網
上載者:User

  2010年4月13日,在百度貼吧站長俱樂部中,知名華人SEO專家ZAC在“代人提問原創內容不能被識別”文章中發問道:“自己的原創內容排名常常比不過轉載或抄襲的,站長能做些什麼預防或改進?我的站每天都更新原創內容,而百度每天也都更新,但是其他人的轉載被收錄了以後,我的文章就搜尋不到了。我堅持了近4個月的原創,但百度仍然把我扔到了500多位!”

  兩年前ZAC代表站長就原創收錄問題與代表百度的Lee之對話

  兩年多過去了,上面提問中所陳述情況依舊毫無改觀,甚至越發惡化,各種“複製採集偽原創”有價值原創內容頁面輕易地被百度網頁搜尋以關鍵詞索引方式推薦給搜尋網友,而原創內容首髮網站卻名落孫山。這在客觀上縱容了那種瞄準百度缺陷,以“複製採集偽原創”為基礎所謂SEO的不斷泛濫。

  不出所料的是,在今年8月10日的百度“站長門診開放日”活動中,原創識別問題又成為了各位站長、SEOER不斷向百度搜尋工程師Lee追問的問題。

  同樣不出所料的是,百度搜尋工程師Lee的回答仍是兩年前回答“這個,只能說百度的策略還不是很完善,我們也一直在改進”的翻版——“我們正在設計一套較完善的原創識別演算法”。

  而關注百度動態人士可以很輕易地就發現,百度Lee“我們正在設計一套較完善的原創識別演算法”的回答完全就是對7月2日百度網頁搜尋反作弊團隊《針對低品質網站的措施已經生效》“打擊低質網站(偽原創與無原創網站)措施已經生效”的全面否定——大家還記得,當時《針對低品質網站的措施已經生效》中氣宇軒昂地說道:“對提供優質、原創資源的站長來說,因為我們降低甚至清除了低品質網站的排名,你們將從百度得到更多的流量”。

  但不到兩個月之後,百度搜尋工程師Lee的回答就完全否定了百度網頁搜尋反作弊團隊的說法,這真的讓人大跌眼鏡。

  並且,時隔兩年兩次面對“原創內容”識別提問,百度Lee都採取了“環顧左右而言他”的方法敷衍應付:兩年前Lee的回答為“從使用者體驗角度,有些轉載未必比原創差……只是國內的轉載,很多是掐頭去尾,使原創者比較受傷”,更多針對的是國內轉載不規範的問題;而今年百度Lee的回答則是:“(百度接到的聲稱自己是原創投訴)80%多都是無效的,甚至大量聲稱老中醫3-5天治癒絕症的網站,通篇內容讀不通,聲稱自己是高品質的網站”。

  無可否認,Lee所說的都是事實,但真實的細節累加並不等於真實的整體,這些普遍情況的真實存在並不等於中國網路界就沒有高品質原創內容存在,更不是百度無法識別網站原創首發的理由。俗話說“沒有金剛鑽,別攪瓷器活”,百度Lee這樣的表態只能證明百度的原創識別與去除重複頁面能力沒有絲毫進步。

  必須強調的是,瞭解識別原創頁面能力差是所有搜尋引擎的軟肋之後,許多草根原創者都在文章末尾處添加了著作權說明標註首髮網址,同時以高品質行業網站投稿的“內容同步”方式引導搜尋引擎及轉載站長——雖然所獲得連結更多的是純文字連結,但百度搜尋工程師Lee所說“我們把問題明確一下:是否能識別和處理純文字形式的連結(非標籤)?答案是可以的,搜尋引擎的spider需要及時發現和抓取互連網上的連結,至於連結是什麼形式,並不重要”給了他們信心。

  可讓這些站長們大失所望的是,就在大量業內權威投稿轉載網站沒有百度Lee所說“掐頭去尾轉載”,且高權重投稿或轉載網站網頁產生及被搜尋引擎收錄時間明顯早於“複製採集偽原創”網站的情況下,還是出現了大量原創首發頁面被百度忽略,“複製採集偽原創”網站排名居高不下——其中很多頁面還是隨便截取文章一部分,沒有完整表達文章主題,根本無法達到百度所標榜之“更好的使用者體驗”標準。

  必須看到的是,雖然原創頁面的識別認定一直都是搜尋引擎的軟肋,但並不是所有搜尋引擎面對眾多高權重URL指向原創首發頁面的表現都如同百度們一樣糟糕。正如國內知名SEOER王通所言,在同樣面對中國網路“複製採集偽原創”泛濫的情況下,對於有著作權聲明網址指引的原創首發頁面(加之發布時間、連結普遍性及連結網站頁面權重等標準),Google就沒有出現號稱“最懂中文”的百度那樣一敗塗地的情況——相關搜尋靠前位置大片被複製採集偽原創頁面佔領,原創首發頁面無影無蹤現象。

  這說明,“最懂中文”的百度在關鍵詞索引將網址推薦給搜尋網友之前,必須完成的原創識別工作與去除重複頁面工作(以甄別確定重點推薦的高品質資訊頁面及重要補充頁面)基本沒有完成——原因是技術水平十分低下,急亟迎頭趕上,而百度Lee的說法只不過是不斷地為百度尋找託詞。

  而且,相比之下,Google識別原創首發地址更良好的表現證明,百度並不在乎原創首發頁面,它在乎的只是更多原創內容——卻缺乏應有的著作權意識,本人認為,這正是百度長期以來識別原創網站演算法落後的最主要原因,“非不能也,是不為也”。

  無怪乎,國內知名SEOER王通“百度628調整,就是為了打擊原創網站”的言論一出,許多站長、SEOER於心有戚戚焉。

  事實上,原創首發頁面的認定技術如果能有較大提高,可以協助搜尋引擎反作弊能力的大幅提高,直接挫敗那些為牟利以各種方式欺騙搜尋引擎的SEOER們的圖謀,給認真致力於高品質原創內容者信心。

  只有百度以實際行動尊重眾多中小原創網站站長的勞動,鼓勵他們不斷地發揮聰明才智,進行原創工作,才能引導更多一天鑽頭覓縫於“複製採集偽原創”的站長、SEOER將精力投入到“最能體現網站核心價值”的原創內容上面。對於百度,這一步雖然很艱難,但卻是有利於搜尋引擎未來發展的一步大棋。

  並且,不得不提醒百度網頁搜尋的是,儘快以更為合理的演算法圓滿解決站長們所反映“原創內容收錄問題”,並不是百度對眾多草根站長們的恩賜(知名網站根本不尿百度,淘寶直接屏蔽百度),而是現行《著作權法》等相關法律要求百度必須履行的“基本義務”。百度們不能自我感覺太過於良好了。

  何去何從,路在腳下,全憑搜尋引擎自己選擇(本文由gouyn12原創首發,著作權,文責自負,轉載請以連結形式標明文章首發出處http://www.gouyn12.com/cnnet/327.html)。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。