洪波:搜索抓取應遵守規則 違反協定將致大亂

來源:互聯網
上載者:User
關鍵字 抓取 洪波

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

對於近日奇虎360綜合搜索被爆出無視國際通行的Roberts協定,抓取百度、Google等搜尋引擎內容,導致眾多網站出於安全和隱私考慮不允許搜尋引擎抓取的內網資訊被洩露一事,資深互聯網觀察家洪波指出, 做搜索就要遵守搜索行業公認的遊戲規則,無視規則,肆意違反規則才是真正的不正當競爭,這種行為不能從法律和政府監管上及時制止,將引發行業大亂。

搜尋引擎的原理是通過一種爬蟲spider程式,自動搜集互聯網上的網頁並獲取相關資訊。 而鑒於網路安全與隱私的考慮,每個網站都會設置自己的Robots協定,來明示搜尋引擎,哪些內容是願意和允許被搜尋引擎收錄的,哪些則不允許。 而搜尋引擎則會按照Robots協定給與自己的許可權來進行抓取。 Robots協定已經成為所有搜尋引擎必須遵守的國際慣例。 這就好比一個正常的人去到別人家裡,需要先敲門,得到許可以後才能進入客廳。 除非有主人的進一步許可和邀請,否則你不能擅自進入內室,或者在別人家裡四處遛達。

因此,當兩周前新上線的360綜合搜索無視Robots協定,直接抓取未經授權的資訊資料時,其做法遭到了業內人士的普遍質疑。

據瞭解,百度網站的Robots協定中並未授權360搜索爬蟲抓取,但是360搜索無視這種設置,擅自實施抓取行為。 考慮到很多內容源網站禁止搜尋引擎抓取的網頁中大多涉及存放在伺服器上的後臺資料庫、使用者穩私、密碼等資訊。 這意味著,360無視內容源網站robots.txt協定中的設定,將導致存放在伺服器上的不該被搜索到的隱私資訊被搜索到,甚至直接在搜尋結果中展示出來。

對於被指責違反robots協定,由於事實俱在,周鴻禕已然無法否認,但他同時反駁表示百度在robots協定中禁止360爬蟲,是不正當競爭。 對此洪波表示,robots協定賦予網站禁止任何搜索爬蟲的權利,這跟不正當競爭毫無關系。 360無視行業預設規則,才是真正的不正當競爭。

「做搜索就要遵守搜索行業公認的遊戲規則,無視規則,肆意違反規則才是真正的不正當競爭。 」在洪波看來,百度並沒有禁止所有爬蟲抓取問答、知道和貼吧的內容,百度只是禁止了不規矩的、存在潛在安全風險的爬蟲,這恰是保護市場秩序,保護使用者隱私的合理舉措。 他指出,2008年淘寶也曾禁止百度爬蟲,而百度則嚴格遵守robots協定,停止抓取淘寶網內容,並沒有以淘寶不正當競爭為藉口違反robots協定。

360一直自詡這是用創新的方式做搜索,洪波的一句話表示了他的觀點:「一個連基本遊戲規則都不遵守的搜尋引擎,怎麼好意思給自己貼上‘創新’的標籤。 也許在周鴻禕的字典裡,無視規則等於創新。 」洪波表示,這樣的行為不及時從法律和政府監管上制止,那360今天違規抓取的是百度內容,明天就可以隨便抓取含有大量隱私的人人網的社區資訊,其他網站和搜尋引擎都可以效仿,被京東遮罩的一淘還可以抓取競爭對手的的商品資訊。 以此類推,整個互聯網行業將大亂。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.