震驚,大多數互連網使用者都不是人

來源:互聯網
上載者:User

標籤:

震驚,大多數互連網使用者都不是人

網站安全和內容分發公司Incapsula發布了一個資料,56%的網頁瀏覽量都由爬蟲機器人貢獻。

爬蟲機器人因為功能和目的不同分為這幾類:

Search engine crawlers:搜尋引擎爬蟲,它們能夠對網頁建立索引,這樣人們就可以在搜尋方塊尋找到對應網頁的內容。Google就使用這個爬蟲整理全世界的資訊。

RSS bots:訂閱類爬蟲,能夠從網站抓取內容彙總起來,鮮果、今日頭條和網頁新聞用戶端就使用了這類爬蟲。

Scrapers:網頁爬蟲,一般是盜取內容、郵箱地址和逆向破解定價模型,它可以作用在電子商務網站。

Impersonator:擬人偽裝爬蟲,它能夠偽裝成搜尋引擎或者瀏覽器,以避免被網站發現。它能夠搜集營銷情報,發動DDos攻擊,消耗頻寬甚至使網站癱瘓。

Hacking Tools:駭客工具,它能夠盜取資訊,植入流氓軟體,破壞網頁內容甚至劫持網站和伺服器。

Spammers:垃圾郵件發送工具,它可以騷擾普通訪客,發布無關內容或者釣魚連結。它還可以載入過量連結,讓網站進入搜尋引擎的黑名單而從互連網“消失”。

在56 %的訪問中,惡意爬蟲機器人佔比29%,善意佔比27%。隨著RSS爬蟲的減少,善意爬蟲的比例更小了。

大部分網站的爬蟲訪問比例在63%到80%之間,越小的網站爬蟲訪問的比例越高。搜尋引擎爬蟲是這一現象的主要原因,它對小網站和大網站幾乎無差別對待,而平均每個網站一天要被Google的搜尋引擎爬蟲訪問187次。

擬人偽裝爬蟲增長很快,它是過去3年裡唯一持續增長的爬蟲。在上面提到的Google搜尋引擎爬蟲中,平均來說每24次訪問就會有一個偽裝爬蟲來訪。在這些偽裝爬蟲中,25.16%來自美國,中國佔比15.61%,是第二大的來源國。

RSS爬蟲逐漸走向衰落。老一代RSS工具,例如Google Reader、鮮果都已經走向死亡。

Incapsula的資料來源於20000個每天至少有10個訪問量的網站,它整理了過去90天的150億次訪問資料得出了這個結果。

我們的所見所得,資料安全,頻寬消耗和廣告瀏覽都和爬蟲機器人息息相關,它們重塑了我們工作和生活的方式。

震驚,大多數互連網使用者都不是人

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.