文章目錄
- 1概述
- 1.1目的
- 1.2產品簡介
- 1.3市場分析
- 1.3.1互連網應用
- 1.3.2資訊搜尋
- 1.3.3資料錄入
- 1.4需求概述
- 1.4.1網站採集
- 1.4.2資訊採集
- 1.4.3資料結構化
- 2使用者特點
- 2.1網站管理員
- 2.2資訊採集使用者
- 2.3資料結構化使用者
- 3運行環境
- 4運行體系
- 5系統特性
- 5.1 I/O體系
- 5.2容器體系
- 5.3緩衝體系
- 5.4外掛程式體系
- 6功能說明
- 6.1結構化採集
- 6.2可視化中繼資料定義
- 6.3外掛程式支援
- 6.4用戶端環境類比
- 6.5多線程採集
- 6.6全域發布
- 6.7分頁採集
- 6.8關聯檔案下載
- 6.9規則儲存
- 6.10模板修飾
- 6.11結果過濾、替換
- 6.12重複過濾
- 7支援資訊
文章來源:視采網站採集器
視采網站採集器產品白皮書pdf格式下載1概述1.1目的
本文從技術的角度向使用者介紹採集系統的系統結構、系統特性及功能特徵。並分析採集系統所面對的市場行情和當前的使用者需求。
本文適合使用者以及技術人員閱讀和參考。
1.2產品簡介
視采網站採集器是一個開源的資訊採集軟體,它可用於網站資訊採集、站內全文檢索索引、軟體系統資料交換、資料結構化處理等應用。
1.3市場分析1.3.1互連網應用
隨著互連網的發展及普及,互連網使用者迅速增長,上網已成為人們生活中的日常內容,人們通過網站閱讀,發表,搜尋,交流,購物等,所有這些上網行為,由點到線,都將匯聚龐大的商業價值。因此,互連網成為眾多人的夢想帝國,淘金之地。不管您是腰纏萬貫,還是身無分文,這裡只談資訊為王,服務至上。因此資訊的創造、收集、組織和再加工是網站的生存基礎。資訊採集系統可以通過網站管理員指定的網站地址和預定義的抓取規則,自動擷取網頁內容,自動按照自身網站系統的資料結構抽取資料,並發布到網站系統中,讓您不花絲毫心血和金錢,就可以使您的網站一夜之間網羅天下。
1.3.2資訊搜尋
由於各種使用者群體的網路連接,使得互連網成為一個包羅永珍的資訊庫,商業的、學術的、個體的等等資訊都可以在互連網上發布和擷取,因此,企業可以通過互連網擷取客戶資源、市場行情、商業資訊等。但在這茫茫的資訊大海,我們常常缺少一種工具來發現我們所關心的內容,並有效組織和儲備它們,使之成為企業的內部資源。資訊採集系統可以根據資料模式,自動通過搜尋引擎檢索資料,將匹配的資訊顯示在您的案頭上。
1.3.3資料錄入
企業管理系統,公司資訊管理系統、客戶服務系統等各種資訊處理系統,它們只能處理結構化的資料,如學生資訊包括使用者名稱、性別、年齡等屬性,它們必須儲存在預定義的結構裡。但系統外界會有大量的非結構化資料,如客戶提交的材料、公司內部文檔等。而這些資料通常是人工統計和人工輸入各類資訊處理系統中。資訊採集系統它能將一篇文檔按資訊系統的資料結構自動抽取成多個欄位,並自動將這些欄位匯入到企業的各類資訊處理系統中。
1.4需求概述
網站管理員最大的心愿是提供最豐富的網站內容,吸引更多地訪問量;市場行銷人員每當通過蛛絲馬跡而擷取到隱藏的客戶資源而興奮不已;企業後勤人員做夢都想遠離這些枯燥無味的文字錄入。採集系統好比一雙慧眼,讓您看得更遠,獲得更多。
1.4.1網站採集
網站管理員希望將其它網站的一些內容儲存到自己的伺服器上。從內容中抽取相關的欄位,發布到自己的網站系統中。有時需要將網頁相關的檔案也儲存到本地,片、附件等。
網站管理員會定時從同一網站上抓取內容,希望已經抓取的內容不要再發布到網站系統中。對於一些網站,需要登陸才能擷取頁面。網站管理員希望通能夠通過一個內容列表頁面擷取所有的相關內容,包括內容列表的其它分頁。當第二次抓取相同網站時,希望不要再重複第一次的設定。
1.4.2資訊採集
網站管理員從互連網中收集各類圖片、笑話、新聞、技術等各類資訊,然後分類、編輯,發布到自己的網站系統中。網站管理員一般通過搜尋引擎搜尋各類關鍵字擷取目標網址,然後再提取網頁中的內容。關鍵字的組織決定擷取內容的準確性和數量。由於內容來自不同的網站,所以提取內容的方法也各不相同。對於某一類的資訊,發布到網站系統的資料結構是相同的。
網站管理員對站內進行搜尋,將相關的內容在首頁上進行編排和索引。
企業從互連網上搜尋email和電話號碼,並且能夠查看該資訊的相關資訊,以便瞭解該對象的基本情況。企業希望能夠搜尋某一類別的客戶資訊,如這個客戶屬於女性,年齡為20到30歲等。並且能夠將採集到的對象資訊儲存到企業內部的客戶管理系統中。
企業需要瞭解某一產品的資訊,希望得到該類產品的報價、廠商等,以及這些資訊的對比情況。並且能夠得到報價、廠商的近一步資訊。這些資訊希望能夠儲存到企業的內部的ERP系統或其它系統中。
1.4.3資料結構化
企業辦公產生的電子文檔,客戶提交的客戶資料等這些資料,一般需要大量的人力手工輸入到企業的ERP系統或資訊系統中,企業希望能夠通過軟體從這些文檔中抽取相關的資料自動匯入到系統中。這些資料一般都有固定的模板格式,並且同一類文檔的模板格式是相同的。如客戶的家庭資訊,客戶1和客戶2的模板格式是一樣的,只是內容不一樣。
2使用者特點2.1網站管理員
系統的終端使用者群包含網站的管理員們,對一些給目標地址做了隱藏的網站,可能會使他們操作失敗,特別有些網站對網頁內容作了擾亂處理,使得他們更難準確地定義規則。對於這些問題,系統提供一些範例和匹配萬用字元,告訴他們的應對方法。並且官方網站提供交流論壇,共用和學習相互之間的經驗。
2.2資訊採集使用者
對於資訊採集的使用者,系統提供豐富的模板模式供使用者使用,如email匹配模式、電話號碼匹配模式等,只需要使用者選擇一個模板,就可以獲得他們想要的資訊。當然官方網站提供豐富模板資源供以下載。
2.3資料結構化使用者
對於資料結構化的應用,會有第三方的技術人員提供支援。
系統預留了輸入輸出的編程介面,一些使用者擴充這些介面,使系統應用到更多的場合下。針對這些使用者,系統提供詳細的介面說明,擴充範例程式碼。我們提供開發包,並描述每個類和每個方法的使用方法和功能。
還有一類使用者屬於商人的範疇,他們僅從事規則的製作,在網上交換或出售自己的規則。他們更關心網站的搜尋和內容的品質,他們分兩種類型,一種是獵人,他們能夠發現各種各樣的資訊,能夠滿足各類網管的內容需求,他們從數量上擷取大把金錢。當然,對於個別稀有的內容,價格就像黃金一樣了。另一種屬於駭客,他們精通web技術,機智並執著,在他們手裡,都是一些很難發掘到的精品,當然價格都是高昂的。
由於採集系統屬於開源軟體,會有很多人去分析和使用採集系統中的組件,擴充和完善採集系統。他們使用的層級不僅是系統的介面上,而是深入到代碼的內部上,他們需要參考採集系統的各類技術文檔,所以系統除了使用者手冊,其它的開發文檔也是必不可少的。 協作關係:
3運行環境
為了使採集系統適應多種運行環境,系統採用多種體繫結構和多種語言版本。 採集系統分單機版和web版。Web版又分多個不同語言的實現版,如java版、php版、.net版等。
| 軟體結構 |
程式設計語言 |
作業系統 |
資料庫 |
運行環境 |
| 單機版 |
vc |
window |
access |
window |
| java |
window/unix |
mysql |
jdk |
| web版 |
java |
window/unix |
mysql/mssql/oracle |
servlet容器+jdk |
| php |
window/unix |
mysql |
php容器 |
| .net |
window |
mssql |
iis伺服器 |
4運行體系
採集系統基本組件包含輸入子系統,緩衝器、輸出子系統。資料通過多個過濾器多深度的提取下,被儲存在緩衝器中。如下:
5系統特性5.1 I/O體系
系統使用統一的輸入輸出介面對各類外部目標進行讀取和發布資料。透明的支援現在和未來各類外部系統的互動要求。
5.2容器體系
容器管理體系,使系統運行更加高效,並且提供更高的使用者互動能力。特性如下:
- 控制過濾器的並發數,適應不同的目標限制。
- 過濾器的狀態報表,時刻瞭解內容的採集過程。
- 採用複用和調度策略,並發更加高效。
5.3緩衝體系
緩衝區為輸出子系統提供全域的資料索引,使輸出子系統具備以下幾種能力:
- 可以在全域範圍內對資料進行校正和再加工。
- 可以跨層次地關聯單中繼資料,發布採集的中間資料.
5.4外掛程式體系
採集系統支援豐富的外掛程式類型,外掛程式管理器負責載入外掛程式和索引外掛程式。外掛程式分以下幾種類型: 輸入外掛程式、輸出外掛程式和過濾器外掛程式,功能如下:
- 輸入外掛程式支援不同的外部對象讀取。如http伺服器、ftp伺服器、檔案系統等。
- 採集外掛程式支援不同的資料格式採集以及特殊的資訊採集。如網頁採集、word採集、電子郵件地址採集等。
- 輸出外掛程式支援各類系統的發布,如bbs系統、資訊系統等。
6功能說明6.1結構化採集
系統對半結構化資料進行語義分析,根據語義規則智能提取資料。
6.2可視化中繼資料定義
使用者在可視化的目標介面上指定所要採集的內容。
6.3外掛程式支援
系統擁有豐富的外掛程式功能,支援各類目標的採集和各類系統的發布。如ftp採集,http採集以及資料庫發布,檔案發布。
6.4用戶端環境類比
類比用戶端環境,支援用戶端和伺服器端的基本會話功能。如瀏覽器的session機制、cookie機制。支援使用者登入。
6.5多線程採集
系統多任務並發,多線程採集。支援線程的並發控制和狀態監視。
6.6全域發布
系統提供上下文關聯的全域緩衝區,發布模組可以聯合不同層次的單中繼資料。使用者可以檢查和編輯緩衝區中的單中繼資料。
6.7分頁採集
根據頁碼規則,自動採集內容的下一頁。
6.8關聯檔案下載
系統可以根據設定自動下載頁麵包含的其它檔案。如flash、圖片等。
6.9規則儲存
採集對象、過濾規則、發布目標等資訊儲存在規則檔案裡,使用者可以匯入匯出規則檔案,與它人共用或交換規則檔案。系統提供友好的嚮導頁面供使用者配置規則檔案。
6.10模板修飾
可以按預定義的模板結構發布資料。
6.11結果過濾、替換
自動過濾資料的格式及文法,如過濾html語言,word格式等。支援常量替換和環境變數替換。
6.12重複過濾
自動刪除採集結果中的重複資料。
7支援資訊
| 資源 |
說明 |
| http://www.caijiqi.net/ |
項目官方網站,發布項目文檔,提供系統下載。 |
| QQ:107175884 |
|
| Mail:hotheartboy@gmail.com |
|