火車頭採集器教程之實戰演練——CMS採集規則編寫

來源:互聯網
上載者:User
火車頭採集器教程之CMS採集規則編寫

火車頭採集器教程之實戰視頻——CMS採集規則編寫

********************************************************************
火車頭採集器教程之實戰演練——CMS採集規則編寫
Finishied by Victor QQ:99767290

********************************************************************

    首先,我們先瞭解一下火車頭採集器(LocoySpider)V3的準系統,
    我們今天所用到的火車頭的準系統如下
   
    1、建立網站
   
    2、建立任務
   
    3、資料發布方式之“儲存到軟體資料庫”
   
    當然本教程是圍繞“CMS採集規則編寫”這一主題展開的,所以不可能面面俱到的陳表火車頭採集器的功能,在此請見諒!

    現在我們結合實戰來給大家講解
*********************************************************

一、建立網站

    1、功能:對同一網站具有“相同採集內容規則”的採集任務進行彙總
   
    2、好處:
        
        a、分類明晰,便於查詢、調用;
        
        b、在網站下建立的採集任務預設繼承網站採集內容規則,避免了重複編寫採集規則的麻煩;
   
    3、實戰:
   
    我們以“每日經濟新聞”為例進行講解,首先我們開啟其網站 http://www.nba.com.cn,瀏覽其中不同欄目的文章發現這個網站的文章模式(模板)幾乎是完全一致的

        (當然,其中有一點小小的區別,就是有的文章段落是靠段落標記<>
</P>進行劃分的,有的文章段落是靠<DIV></DIV>進行劃分的,這時候如果你的網站布局是採用<
table></table>布局的沒什麼大不了的,但是如果你的網站是採用<DIV></DIV>布局的,
那麼殘餘的DIV標記很可能會破壞你原來的布局,此種情況的解決辦法我們以後再繼續討論,這裡我就不再贅述了)。

    好,現在我們有理由相信,我們建立一個網站的“內容規則”,就可以將這個網站的所有欄目涵蓋了。

    點選建立按鈕,選擇建立網站“每日經濟新聞”

    我們,先進行“標題”規則的編寫

   
    標題標籤規則的編寫

    注意:標籤起始字串的確認,一定要注意兩點,一、唯一性;二、貼身原則,即儘可能貼近目標採集地區;

    開始字串:<span class="txt181">

    結束字串:</span><span class="hui">
注意:確認字串的唯一性:複製字串,點按快速鍵“Ctrl+F”進行尋找,如果字串為唯一,會有提示資訊“找不到XXX”的提示。

為了確認標籤的通用性,我們可以選擇不同的文章進行測試,,這裡就不做示範了/。   

    Html標籤排除:我們選擇“全選”。

    注意:然對於“空格(預留位置) ”我們可以有所保留,因為有些網站的“長標題”的分隔不是靠標點或者純正意義上的空白,而是靠“預留位置 ”進行分隔的,那麼這時候我們就要保留“空格(預留位置) ”選項。(課後看吧)

    此時我們可以以點代面,直接進行“典型頁面”的採集測試,測試一下採集效果,滿意後,我們接下來進行文章內容的規則編寫。

    文章內容標籤規則的編寫

    開始字串:<span id="zoom" class="content">

    結束字串:<br><iframe

    Html標籤排除:此時我們要保留用來劃分段落的一下常用字串“<br />”、“P”、“<DIV”,並且保留文章中常用的映像“<img”。(測試)

    注意:我們已經選擇將"<table"排除了,但是往往有的文章中就含有一些"資料表格",這時候我們只能是顧全大局了,日後再查缺補漏。除非你能夠確認你的目標採集地區不會有多餘的“表格版面配置”出現,否則我們還是將表格標記排除為妙。

    作者標籤規則的編寫

    要點與標題標籤規則的編寫相同,此處不再贅述。

    開始字串:<div align="center" style=font-size:9pt>

    結束字串:[200

    Html標籤排除:我們選擇“全選”。(測試)

   
    時間標籤編寫規則

    要點同上。

    開始字串:<span id="zoom" class="content">

    結束字串:<br><iframe

    Html標籤排除:我們選擇“全選”。(測試)

    出處標籤規格的編寫

   
    此值,一般來說,我們預設為我們採集的目標網站,使用“固定格式的資料”進行設定,但是,你如果為了更好的體現貴網站的著作權意識,那麼,你在對目標網站轉載的文章進行採集設定的時候,可以進行相應調整,此處不做贅述。

好了,整個網站的“內容規則”我們設定完畢,下面將進行,採集任務的設定。

**************************************************************************

二、建立採集任務

    在剛剛建立的採集網站上點擊滑鼠右鍵,選擇“從該網站建立任務”,,在彈出的對話方塊裡我們察看一下“內容規則”,結果正如前邊所說“在網站下建立的採集任務預設繼承網站採集內容規則”,好了,我們就可以直接編寫“採集網址”的規則了。

    “採集網址深度”標籤的編寫

    為了靈活方便,此項操作,我們一般都在文章的列表頁面進行操作,所以我們可採用其預設值“1”,對於更深度的採集我們以後的教程中進行闡述,此處不做贅述。

    開始採集網址規則的編寫

    點選“嚮導添加”在彈出的對話方塊中有三個選項“單頁網址”、“批量/多頁”、“文本匯入”,一般情況,我們不會用到“文本匯入”方式,    此處僅對前兩種採集方式進行闡述。

    我們先進行“單頁網址”的設定,此處我們選擇“地產”欄目進行學習。

    列表頁面網址為

    http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74,

    複製到文本域中,點選“添加”按鈕,並“完成添加”。

    回到“建立任務”—“採集網址”出,進行“頁面內選定地區採集網址”設定

    從:align='left'>首頁 - 到:class=right_font>共

    測試,結果40頁文章頁面。。。全部採集測試通過,,滿意,,(此處我們不進行採集)繼續往下學習。

    好我們下面學習“批量/多頁

    點選“嚮導添加”在彈出的對話方塊中選擇“批量/多頁

    為了確定列表網址的變數,我們進行如下操作:

    1、我們在網頁中“點選”“下一頁”,,發現地址欄網址:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2

    2、再將滑鼠“指向”“下一頁”發現瀏覽器左下方狀態列顯示地址為http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3

    3、再將滑鼠“指向”“末頁”發現瀏覽器左下方狀態列顯示地址為http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58

    4、再將滑鼠“指向”“首頁”發現瀏覽器左下方狀態列顯示地址為http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
        http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1

    這樣我們可以判斷“&page=(*);”為其列表網址的變數,那麼我麼可以設定如下:

    多頁類似地址網址形式為:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*);
   

    數字變化範圍從1到58,間隔倍數為1;

    點選“添加”按鈕,並完成添加。

    此處的“頁面內選定地區採集網址”設定同“單頁網址”“頁面內選定地區採集網址”的設定,此處不做贅述。

    點選“開始測試網址”,(這個過程很長,我暫停了視頻錄製)

    當然,在實際操作當中,如果資料量大,我們也可以不去測試,直接採集,即便是因為規則的不完全適用性而造成一部分資料的丟失,我想也是可以忽略的。

    此處,我只選擇了2頁進行採集

測試結果共有80頁內容頁面。

    下一步驟:“資料發布方式”設定

**************************************************************************

    我們選取方式一:“儲存到軟體資料庫”,

    同時,選取方式三“Web線上發布到網站”的“使用自訂發布方式”,“自訂分類ID”選擇3,給任務命名為“地產”,,並“儲存,更新”採集任務,鑒於我們教程剛剛開始,就不做深入學習。

    回到火車頭主介面,在“地產”任務上點擊滑鼠右鍵,選擇“開始”,即可完成採集。

    採集資料會自動發布到方式三所指向的網站的指定欄目(ID=3),同時儲存到

        火車頭安裝目錄/DATA/序號-任務名/SpiderResult.mdb

    的資料庫中。

        哦,,昨天net對我的錯誤提示了我一下,,,

        3個小時要寫文案,錄影,還得採集資訊到我的網站,暈倒了N次,,,寫的太倉粗了,,完全是憑感覺寫的,,讓大家雲裡霧裡的一頭霧水,不好意思阿,,請見諒!!!,現在更正以下:

        這裡的方式一、方式三是並列關係的,,可以同時選,也可以任選其一,,,如果你沒有在發布模組的話,就直接採集到本地軟體資料庫即可。“本地軟體資料庫”是微軟Access的,我們可以開啟一下資料庫對資料進行一下瀏覽查驗。

        至於方式三“Web線上發布到網站”,我會在隨後的教程中進行講解,希望大家能夠耐心等待。

        好了,,本教程到此為止!下一節課,再見!!!

       視頻

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.