A5蟲蟲行銷助手9月3日售後群分享:文章採集與網址抓取

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

A5蟲蟲行銷助手售後群有很多高手。 為了讓各位學到更多東西,我們定期組織交流分享活動,把分享氛圍帶動起來,把高手的經驗挖掘出來,説明各位建立人脈,更加快速的進步。 我們致力於把蟲蟲售後群打造成互聯網網站/行銷高手群。 在這裡,你學到的不僅是關於蟲軟。

以後不出意外,我們每週六晚8:30會舉辦分享活動,歡迎各位準時參加,也歡迎各位聯繫我,把你的心得分享給大家(暫時分享人獎勵t恤一件,以後獎品會增加),售後群目幾百多人,每人都能分享一點點的有價值的心得,這個意義就非常大。 分享創造價值。 今天分享人是樂逍遙與二十二,給各位帶來關於主題「文章採集與網址抓取」的一些常用方法與技巧。

樂逍遙——文章的採集:

文章採集的第一部分是清單頁面位址的填寫,這個實際就是1個正則,蟲蟲是正則採集的,實際很簡單,[page]變數代表頁碼,page數位

  

這個大家基本都知道,這裡也是比較容易配置的。 一般就是一行連結代碼,把其中的href連結網址部分,用(.*?) 代替即可。 蟲蟲軟體採集規則適用的都是標準的正則運算式寫法,前後的括弧表示這是提取出來的一個參數。 其實不一定是(.*?),其它的寫法例如([^"]*)也是可以的。

  

這個就是說 (.*?) 代替了位址,(.*?) 這個正則就是替代了位址而已,很簡單,也很好理解。

第 3部分,文章標題和正文的提取,這部分是最難的。 其實也不難,就是找出標題前後的特徵,正文前後的特徵,然後組合起來就是了。 標題一般情況下都是可以用 (.*?) 代替,這個正則運算式的意思是在同一行上,匹配所有字元(不包括分行符號),除了碰到他後面的字串了。 正文一般情況下都可以用([\s \S]*?) 來代替,這個運算式的意思是匹配所有字元(包括換行的,因為正文裡面有可能包括分行符號號),除了碰到他後面的字串了。 加了括弧的正則運算式,代表作為參數要提取出來使用,如果原始程式碼裡面標題在前面,就選「標題在前」,否則就選「標題在後」。 這裡只允許2個加括弧的正則運算式,其它部分也可以存在正則運算式,但是不需要提取出來使用,也就不能加括弧了。 加至於正文和標題中間,一般都可能有很多無關代碼內容,統一可以用[\s\S]*代替,這個是不加括弧的。 無關代碼內容,統一可以用[\s\S]*代替,這個是要注意的,正文一般情況下都可以用([\s\S]*?) 來代替,基本搞清楚 這2個就OK。

例如我們採集HTTP://www.chongseo.com/news/ 這個欄目下的文章,可以這樣寫第一部分:HTTP://www.chongseo.com/news/list_2_[page].html, 然後再把網址給找出來,chongseo教您網站提高流量10大技巧,,正文一般情況下都可以用([\s\S]*?) 來代替,然後開始測試採集,OK,成功。

二十二——基本參數與網址抓取:

1、基本參數:

A大項,執行緒,大家應該都能明白,並不是越快越好,要視情況而定,例如在註冊的時候可以選擇30-50執行緒,但在做博客群發還有問答類群發時用1個執行緒。

B大項,重點就是一個自訂郵箱設置,這個反應的問題比較多,我說一點,新註冊的郵箱不一就直接用pop功能,一定要先登陸郵箱看看有沒有開通,開通之後再設置,這樣就不會有錯了。

C大項需要注意的時候,註冊的使用者名,記住是8---12位,今天有人群裡截圖問什麼會出錯,長度太長了,沒有注意。

D大項,沒有什麼好講的,大家進來在群裡提問沒有關于這方面,我就不多講了,直接說抓取。

2、網址抓取 明白;第二,驗證程式,就是你要抓取目標網站的類型,目前蟲蟲增加了一個自動驗證,通常大家選擇這個就很不錯;伺服器類型的選擇 一個GG,一個bd,一個yh。

bd 資源跟yh的資源相對較少,GG一般來說抓取的量是非常大的,一般情況40條左右規則抓取1萬以上是沒有任何問題,抓取靠的就是就搜索指令,蟲蟲自帶了很多條搜索指令,當然自己也可以分析目前主流CMS程式情況來寫規則, 如DZ論壇程式,intitle:Powered by Discuz!,這條規則是百度與GG都可以使用的抓取DZ論壇的。 你在綁定驗證程式時選擇自動驗證,這樣不管是DZ NT,還有DZ1.5-2.0都可以選出來。

那怎麼樣大量抓取呢,當然一條規則肯定是不行,我們來看這個,北京 Powered by Discuz! X1.5 inurl:forum.php,這條搜索指令就是顯示出有北京當地所有的DZ1.5論壇。 百度只能抓取前7頁,而GG能抓取N頁,但在GG抓取的時候一定要用國外的IP進行抓取(這點大家應該都明白,天朝)所以我建議大家如果想大量抓取網址,花10多塊錢買個VPN包月,那這樣一月下來,百萬條網址不是問題。 像剛才講的北京Powered by Discuz! X1.5 inurl:forum.php,這裡的北京關鍵字都在哪裡找,我教大家一個方法,去各大輸入法網站去下載詞庫。 當然,我們下載了,不可能一條條增加進去,要大量匯入指令。 首先我們先將下載好的詞複製到excel中,進行處理下。 A列複製關鍵字,B例放規則。 然後將這兩例全選複製到txt文本,再進行下空格替換,替找內容為大概5個空格左右,替換為一個空格,那麼最終處理結果就是這樣的。

  

然後保存,開始導入蟲蟲。 下一步就開始抓取了,一般情況GG導入100條以上,打碼最多會出來10次左右,前提是必須用國外IP,大家下去之後可以去試試。 100條規則大概能抓取1.3萬以上的網址,當然要也跟你寫的規則有關系,規則不對,一條也抓取不到。 好了,抓取就這些東西想要蟲蟲用的平時多看看,多動手,軟體隨便點,點不壞。 先看說明書,再看群共用,不要一個小問題就發群裡問,首先檢查自己哪裡做錯了,是不是按照說明來的,參數對不對,再去做一遍。 分享結束後,我們也進行了互動和提問。

自由團:那麼裡關鍵字不用理嗎?

答:可以不用理,大量匯入的時候前面已經加上關鍵字了,而且是大量的,比在這裡加的要強,如果你要單一搜索一個關鍵字話,可以。

自由團:化妝品 Powered by Discuz! X1.5 inurl:forum.php,例如我是要找化妝品的網站,是不是這樣的規則?

答:是跟化妝品有相關的網站都會出來,當然也有不相關的也會出來。

.﹎平凡:能講些關於英文的網址抓取採集方面嗎?謝謝!

答:英文方面我沒有涉及過,只做百度,可以給你提供一個方法!蟲蟲帶的有英文網址的抓取,你可以自已去分析下各大英文論壇是什麼樣的網址形態來抓取,最簡單的辦法就是查你競爭對手的網站外鏈,蟲蟲有這條規則,也很有用,也很實用。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.