火車頭採集器教程之CMS採集規則編寫
火車頭採集器教程之實戰視頻——CMS採集規則編寫
********************************************************************
火車頭採集器教程之實戰演練——CMS採集規則編寫
Finishied by Victor QQ:99767290
********************************************************************
首先,我們先瞭解一下火車頭採集器(LocoySpider)V3的準系統,
我們今天所用到的火車頭的準系統如下
1、建立網站
2、建立任務
3、資料發布方式之“儲存到軟體資料庫”
當然本教程是圍繞“CMS採集規則編寫”這一主題展開的,所以不可能面面俱到的陳表火車頭採集器的功能,在此請見諒!
現在我們結合實戰來給大家講解
*********************************************************
一、建立網站
1、功能:對同一網站具有“相同採集內容規則”的採集任務進行彙總
2、好處:
a、分類明晰,便於查詢、調用;
b、在網站下建立的採集任務預設繼承網站採集內容規則,避免了重複編寫採集規則的麻煩;
3、實戰:
我們以“每日經濟新聞”為例進行講解,首先我們開啟其網站 http://www.nba.com.cn,瀏覽其中不同欄目的文章發現這個網站的文章模式(模板)幾乎是完全一致的
(當然,其中有一點小小的區別,就是有的文章段落是靠段落標記<>
</P>進行劃分的,有的文章段落是靠<DIV></DIV>進行劃分的,這時候如果你的網站布局是採用<
table></table>布局的沒什麼大不了的,但是如果你的網站是採用<DIV></DIV>布局的,
那麼殘餘的DIV標記很可能會破壞你原來的布局,此種情況的解決辦法我們以後再繼續討論,這裡我就不再贅述了)。
好,現在我們有理由相信,我們建立一個網站的“內容規則”,就可以將這個網站的所有欄目涵蓋了。
點選建立按鈕,選擇建立網站“每日經濟新聞”
我們,先進行“標題”規則的編寫
標題標籤規則的編寫
注意:標籤起始字串的確認,一定要注意兩點,一、唯一性;二、貼身原則,即儘可能貼近目標採集地區;
開始字串:<span class="txt181">
結束字串:</span><span class="hui">
注意:確認字串的唯一性:複製字串,點按快速鍵“Ctrl+F”進行尋找,如果字串為唯一,會有提示資訊“找不到XXX”的提示。
為了確認標籤的通用性,我們可以選擇不同的文章進行測試,,這裡就不做示範了/。
Html標籤排除:我們選擇“全選”。
注意:然對於“空格(預留位置) ”我們可以有所保留,因為有些網站的“長標題”的分隔不是靠標點或者純正意義上的空白,而是靠“預留位置 ”進行分隔的,那麼這時候我們就要保留“空格(預留位置) ”選項。(課後看吧)
此時我們可以以點代面,直接進行“典型頁面”的採集測試,測試一下採集效果,滿意後,我們接下來進行文章內容的規則編寫。
文章內容標籤規則的編寫
開始字串:<span id="zoom" class="content">
結束字串:<br><iframe
Html標籤排除:此時我們要保留用來劃分段落的一下常用字串“<br />”、“P”、“<DIV”,並且保留文章中常用的映像“<img”。(測試)
注意:我們已經選擇將"<table"排除了,但是往往有的文章中就含有一些"資料表格",這時候我們只能是顧全大局了,日後再查缺補漏。除非你能夠確認你的目標採集地區不會有多餘的“表格版面配置”出現,否則我們還是將表格標記排除為妙。
作者標籤規則的編寫
要點與標題標籤規則的編寫相同,此處不再贅述。
開始字串:<div align="center" style=font-size:9pt>
結束字串:[200
Html標籤排除:我們選擇“全選”。(測試)
時間標籤編寫規則
要點同上。
開始字串:<span id="zoom" class="content">
結束字串:<br><iframe
Html標籤排除:我們選擇“全選”。(測試)
出處標籤規格的編寫
此值,一般來說,我們預設為我們採集的目標網站,使用“固定格式的資料”進行設定,但是,你如果為了更好的體現貴網站的著作權意識,那麼,你在對目標網站轉載的文章進行採集設定的時候,可以進行相應調整,此處不做贅述。
好了,整個網站的“內容規則”我們設定完畢,下面將進行,採集任務的設定。
**************************************************************************
二、建立採集任務
在剛剛建立的採集網站上點擊滑鼠右鍵,選擇“從該網站建立任務”,,在彈出的對話方塊裡我們察看一下“內容規則”,結果正如前邊所說“在網站下建立的採集任務預設繼承網站採集內容規則”,好了,我們就可以直接編寫“採集網址”的規則了。
“採集網址深度”標籤的編寫
為了靈活方便,此項操作,我們一般都在文章的列表頁面進行操作,所以我們可採用其預設值“1”,對於更深度的採集我們以後的教程中進行闡述,此處不做贅述。
開始採集網址規則的編寫
點選“嚮導添加”在彈出的對話方塊中有三個選項“單頁網址”、“批量/多頁”、“文本匯入”,一般情況,我們不會用到“文本匯入”方式, 此處僅對前兩種採集方式進行闡述。
我們先進行“單頁網址”的設定,此處我們選擇“地產”欄目進行學習。
列表頁面網址為
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74,
複製到文本域中,點選“添加”按鈕,並“完成添加”。
回到“建立任務”—“採集網址”出,進行“頁面內選定地區採集網址”設定
從:align='left'>首頁 - 到:class=right_font>共
測試,結果40頁文章頁面。。。全部採集測試通過,,滿意,,(此處我們不進行採集)繼續往下學習。
好我們下面學習“批量/多頁”
點選“嚮導添加”在彈出的對話方塊中選擇“批量/多頁”
為了確定列表網址的變數,我們進行如下操作:
1、我們在網頁中“點選”“下一頁”,,發現地址欄網址:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
2、再將滑鼠“指向”“下一頁”發現瀏覽器左下方狀態列顯示地址為http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3;
3、再將滑鼠“指向”“末頁”發現瀏覽器左下方狀態列顯示地址為http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58;
4、再將滑鼠“指向”“首頁”發現瀏覽器左下方狀態列顯示地址為http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1;
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=2
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=3
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=58
http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=1
這樣我們可以判斷“&page=(*);”為其列表網址的變數,那麼我麼可以設定如下:
多頁類似地址網址形式為:http://www.nbd.com.cn/ClassNews.asp?D_SClassID=74&page=(*);
數字變化範圍從1到58,間隔倍數為1;
點選“添加”按鈕,並完成添加。
此處的“頁面內選定地區採集網址”設定同“單頁網址”“頁面內選定地區採集網址”的設定,此處不做贅述。
點選“開始測試網址”,(這個過程很長,我暫停了視頻錄製)
當然,在實際操作當中,如果資料量大,我們也可以不去測試,直接採集,即便是因為規則的不完全適用性而造成一部分資料的丟失,我想也是可以忽略的。
此處,我只選擇了2頁進行採集
測試結果共有80頁內容頁面。
下一步驟:“資料發布方式”設定
**************************************************************************
我們選取方式一:“儲存到軟體資料庫”,
同時,選取方式三“Web線上發布到網站”的“使用自訂發布方式”,“自訂分類ID”選擇3,給任務命名為“地產”,,並“儲存,更新”採集任務,鑒於我們教程剛剛開始,就不做深入學習。
回到火車頭主介面,在“地產”任務上點擊滑鼠右鍵,選擇“開始”,即可完成採集。
採集資料會自動發布到方式三所指向的網站的指定欄目(ID=3),同時儲存到:
火車頭安裝目錄/DATA/序號-任務名/SpiderResult.mdb
的資料庫中。
哦,,昨天net對我的錯誤提示了我一下,,,
3個小時要寫文案,錄影,還得採集資訊到我的網站,暈倒了N次,,,寫的太倉粗了,,完全是憑感覺寫的,,讓大家雲裡霧裡的一頭霧水,不好意思阿,,請見諒!!!,現在更正以下:
這裡的方式一、方式三是並列關係的,,可以同時選,也可以任選其一,,,如果你沒有在發布模組的話,就直接採集到本地軟體資料庫即可。“本地軟體資料庫”是微軟Access的,我們可以開啟一下資料庫對資料進行一下瀏覽查驗。
至於方式三“Web線上發布到網站”,我會在隨後的教程中進行講解,希望大家能夠耐心等待。
好了,,本教程到此為止!下一節課,再見!!!
視頻