洪波:搜尋抓取應遵守規則 違反協議將致大亂

來源:互聯網
上載者:User

  對於近日奇虎360綜合搜尋被爆出無視國際通行的Roberts協議,抓取百度、Google等搜尋引擎內容,導致眾多網站出於安全和隱私考慮不允許搜尋引擎抓取的內網資訊被泄露一事,資深互連網觀察家洪波指出,做搜尋就要遵守搜尋行業公認的遊戲規則,無視規則,肆意違反規則才是真正的不正當競爭,這種行為不能從法律和政府監管上及時制止,將引發行業大亂。

  搜尋引擎的原理是通過一種爬蟲spider程式,自動搜集互連網上的網頁並擷取相關資訊。而鑒於網路安全與隱私的考慮,每個網站都會設定自己的Robots協議,來明示搜尋引擎,哪些內容是願意和允許被搜尋引擎收錄的,哪些則不允許。而搜尋引擎則會按照Robots協議給與自己的許可權來進行抓取。Robots協議已經成為所有搜尋引擎必須遵守的國際慣例。這就好比一個正常的人去到別人家裡,需要先敲門,得到許可以後才能進入客廳。除非有主人的進一步許可和邀請,否則你不能擅自進入內室,或者在別人家裡四處遛達。

  因此,當兩周前新上線的360綜合搜尋無視Robots協議,直接抓取未經授權的資訊資料時,其做法遭到了業內人士的普遍質疑。

  據瞭解,百度網站的Robots協議中並未授權360搜尋爬蟲抓取,但是360搜尋無視這種設定,擅自實施抓取行為。考慮到很多內容來源網站禁止搜尋引擎抓取的網頁中大多涉及存放在伺服器上的後台資料庫、使用者穩私、密碼等資訊。這意味著,360無視內容來源網站robots.txt協議中的設定,將導致存放在伺服器上的不該被搜尋到的隱私資訊被搜尋到,甚至直接在搜尋結果中展示出來。

  對於被指責違反robots協議,由於事實俱在,周鴻禕已然無法否認,但他同時反駁表示百度在robots協議中禁止360爬蟲,是不正當競爭。對此洪波表示,robots協議賦予網站禁止任何搜尋爬蟲的權利,這跟不正當競爭毫無關係。360無視行業預設規則,才是真正的不正當競爭。

  “做搜尋就要遵守搜尋行業公認的遊戲規則,無視規則,肆意違反規則才是真正的不正當競爭。”在洪波看來,百度並沒有禁止所有爬蟲抓取問答、知道和貼吧的內容,百度只是禁止了不規矩的、存在潛在安全風險的爬蟲,這恰是保護市場秩序,保護使用者隱私的合理舉措。他指出,2008年淘寶也曾禁止百度爬蟲,而百度則嚴格遵守robots協議,停止抓取淘寶網內容,並沒有以淘寶不正當競爭為借口違反robots協議。

  360一直自詡這是用創新的方式做搜尋,洪波的一句話表示了他的觀點:“一個連基本遊戲規則都不遵守的搜尋引擎,怎麼好意思給自己貼上‘創新’的標籤。也許在周鴻禕的字典裡,無視規則等於創新。”洪波表示,這樣的行為不及時從法律和政府監管上制止,那360今天違規抓取的是百度內容,明天就可以隨便抓取含有大量隱私的人人網的社區資訊,其他網站和搜尋引擎都可以效仿,被京東屏蔽的一淘還可以抓取競爭者的的商品資訊。以此類推,整個互連網行業將大亂。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。