標籤:
震驚,大多數互連網使用者都不是人
網站安全和內容分發公司Incapsula發布了一個資料,56%的網頁瀏覽量都由爬蟲機器人貢獻。
爬蟲機器人因為功能和目的不同分為這幾類:
Search engine crawlers:搜尋引擎爬蟲,它們能夠對網頁建立索引,這樣人們就可以在搜尋方塊尋找到對應網頁的內容。Google就使用這個爬蟲整理全世界的資訊。
RSS bots:訂閱類爬蟲,能夠從網站抓取內容彙總起來,鮮果、今日頭條和網頁新聞用戶端就使用了這類爬蟲。
Scrapers:網頁爬蟲,一般是盜取內容、郵箱地址和逆向破解定價模型,它可以作用在電子商務網站。
Impersonator:擬人偽裝爬蟲,它能夠偽裝成搜尋引擎或者瀏覽器,以避免被網站發現。它能夠搜集營銷情報,發動DDos攻擊,消耗頻寬甚至使網站癱瘓。
Hacking Tools:駭客工具,它能夠盜取資訊,植入流氓軟體,破壞網頁內容甚至劫持網站和伺服器。
Spammers:垃圾郵件發送工具,它可以騷擾普通訪客,發布無關內容或者釣魚連結。它還可以載入過量連結,讓網站進入搜尋引擎的黑名單而從互連網“消失”。
在56 %的訪問中,惡意爬蟲機器人佔比29%,善意佔比27%。隨著RSS爬蟲的減少,善意爬蟲的比例更小了。
大部分網站的爬蟲訪問比例在63%到80%之間,越小的網站爬蟲訪問的比例越高。搜尋引擎爬蟲是這一現象的主要原因,它對小網站和大網站幾乎無差別對待,而平均每個網站一天要被Google的搜尋引擎爬蟲訪問187次。
擬人偽裝爬蟲增長很快,它是過去3年裡唯一持續增長的爬蟲。在上面提到的Google搜尋引擎爬蟲中,平均來說每24次訪問就會有一個偽裝爬蟲來訪。在這些偽裝爬蟲中,25.16%來自美國,中國佔比15.61%,是第二大的來源國。
RSS爬蟲逐漸走向衰落。老一代RSS工具,例如Google Reader、鮮果都已經走向死亡。
Incapsula的資料來源於20000個每天至少有10個訪問量的網站,它整理了過去90天的150億次訪問資料得出了這個結果。
我們的所見所得,資料安全,頻寬消耗和廣告瀏覽都和爬蟲機器人息息相關,它們重塑了我們工作和生活的方式。
震驚,大多數互連網使用者都不是人