作者:章成敏 章成志
摘 要 本文就互連網資訊挖掘技術進行了簡介,對網路資訊挖掘中的關鍵技術、系統流程進行了闡述,結合農業網路資訊挖掘系統的開發及應用,指出網路資訊挖掘的應用前景。
關鍵詞 資料採礦 互連網 網頁 資訊提取
About the WDM Technology
Zhang Chengzhi
(Department of Information Management,Nanjing Agriculturl University,Nanjing 210095)
Abstract This paper introduces the WEB Data Mining (WDM) expoundes the key technology,the system process of the WDM,then use the Agricultural WEB Data Mining (AWDM) as a example,declare that the WDM has good foreground in the practice.
Keywords Data Mining, Internet,WEB pages,Information Extration
一、概 述
隨著互連網的快速發展,越來越豐富的資訊呈現在使用者面前,但同時伴隨的問題是使用者越來越難以獲得其最需要的資訊。早期為瞭解決此問題,出現了以雅虎( Yahoo)為代表的 半自動化的網路 搜尋引擎(Search Engine)。網路搜尋引擎主要由網路機器人(Robot)、索引資料庫和查詢服務三個部分組成[1]。網路機器人對互連網資源進行遍曆,儘可能多地發現並採集新的資訊;採用全文檢索索引技術對採集到的資訊建立索引存到索引資料庫中,能夠極大地提高資訊檢索的速度;查詢服務接收並分析使用者的查詢,即將使用者查詢作為資料庫提問式,根據一定的的匹配策略,如布爾模型、模糊布爾模型等方法遍曆索引資料庫,最後將達到一定的匹配程度的結果(包括標題項,簡單文摘和連結地址)集合返回給使用者。由於人工智慧研究還未達到實用化水平,目前網路機器人還無法實現資訊的準確分類,使得檢索的結果不盡人意,例如,某一使用者利用“棉花種植”進行檢索時,其本意是想得到有關棉花種植的地區分布情況的資料,但搜尋引擎大多是返回大量的關於棉花種植技術的文章,造成這樣情況的原因是現有的搜尋引擎大多是基於簡單的關鍵詞匹配,不能真正理解使用者的檢索意圖所造成的。另外,目前多數搜尋網站都是通過人工方式對資訊進行再一次處理,這樣使得資訊整理的速度遠遠落後於網路資訊的膨脹。
為了實現個人化的主動資訊服務,網路資訊挖掘(Web Mining)技術成為近年來的一個新的研究課題,它是資料採礦技術在網路資訊處理中的應用[2]。網路資訊挖掘是指在大量訓練樣本的基礎上,得到資料對象間的內在特徵,並以此為依據進行有目的的資訊提取。例如,當資訊挖掘系統系統發現使用者的興趣是“棉花種植分布”時,它就會自動過濾掉棉花種植技術等無關的資料,這樣可以大大減少使用者的檢索時間和成本。
網路資訊挖掘與網路資訊檢索所採用的技術有很多相似之處,但也有本質的區別。網路資訊挖掘技術沿用了Robot,全文檢索索引等網路資訊檢索中的優秀成果,同時綜合運用人工智慧、模式識別、神經網路領域的各種技術。網路資訊挖掘系統與網路資訊檢索的最大不同在於它能夠擷取使用者個人化的資訊需求,根據目標特徵資訊在網路上或者資訊庫中進行有目的的資訊搜尋。本文就網路資訊挖掘技術的總體流程、技術實現進行了闡述,指出網路資訊挖掘農業資訊領域中的應用的可行性及其發展前景。
二、網路資訊挖掘技術中的關鍵技術及系統流程
1.網路資訊挖掘中的關鍵技術
(1)目標樣本的特徵提取
網路資訊挖掘系統採用向量空間模型(Vector Space Modal,VSM),用特徵詞條(T1,T2,…,Tn)及其權值Wi代表目標資訊,在進行資訊匹配時,使用這些特徵項評價未知文本與目標樣本的相關程度。特徵詞條及其權值的選取稱為目標樣本的特徵提取,特徵提取演算法的優劣將直接影響到系統的運行效果。詞條在不同內容的文檔中所呈現出的頻率分布是不同的,因此可以根據詞條的頻率特性進行特徵提取和權重評價。
一個有效特徵項集應該既能體現目標內容,也能將目標同其它文檔相區分,因此詞條權重的正比於詞條的文檔內頻數,反比於訓練文本內出現該詞條的文檔頻數。構造如下特徵項權值評價函數:
Weight(word)= tfik*IDFi= tfik*log(N/nk+1)
其中tfik表示詞條Tk在文檔Di中的出現頻數,IDFi為逆文檔頻數,N表示全部目標樣本的文檔數,nk表示出現詞條Tk的文檔數。若考慮詞長因素,可進行標準化處理可得:
Weight(word)=tfik*log(N/nk+1)/
與普通的文字檔相比,HTML文檔中有明顯的標識符,結構資訊更加明顯,對象的屬性更為豐富。系統在計算特徵詞條權值時,充分考慮HTML文檔的特點,對於標題和特徵資訊較多的文本賦予較高權重。為了提高運行效率,系統對特徵向量進行降維處理,僅保留權值較高的詞條作為文檔的特徵項,從而形成維數較低的目標特徵向量。
(2)中文分詞處理
英文的句子以空格作為固定的分隔字元,而中文中沒有,這給中文資訊處理帶來很大障礙,例如電腦無法區分“球拍買了”到底是“球拍,買了”,還是“球,拍賣了”,因此在進行詞頻統計等處理前先要進行詞條切分處理。比較簡單有效分詞方法是基於大型詞庫的機器分詞法。通用詞庫包含了大量不會成為特徵項的常用詞彙,為了提高系統運行效率,系統根據挖掘目標建立專業的分詞表,這樣可以在保證特徵提取準確性的前提下,顯著提高系統的運行效率。
進行詞條切分時,先根據標點進行粗切分,然後再分別使用正向和逆向最大匹配法進行細切分。在進行詞頻統計時,考慮到自然語言的多樣性,系統建立並使用相應的同義字典、相關詞詞典等輔助詞典,以提高資訊匹配的準確度。
(3)擷取網路中的動態資訊
Robot是傳統搜尋引擎的重要組成部分,它依照HTTP協議讀取Web頁面並根據HTML文檔中的超鏈在WWW上進行自動漫遊,Robot也被稱為Spider、Worm或Crawler。但Robot只能擷取Web上的靜態頁面,而有價值的資訊往往存放在網路資料庫中,人們無法通過搜尋引擎擷取這些資料,只能登入專業資訊網站,利用網站提供的查詢介面提交查詢請求,擷取並瀏覽系統產生的動態網頁面。網路資訊挖掘系統則通過網站提供的查詢介面對網路資料庫中的資訊進行遍曆,並根據專業知識庫對遍曆的結果進行自動的分析整理,最後匯入本地的資訊庫。
2.網路資訊挖掘技術實現流程
圖1給出了網路資訊挖掘技術實現的總體流程圖,分別對其中的每個步驟解釋如下:
第一步:確立目標樣本,即由使用者選擇目標文本,作為提取使用者的特徵資訊;
第二步:提取特徵資訊,即根據目標樣本的詞頻分布,從統計詞典中提取出挖掘目標的特徵向量並計算出相應的權值;
第三步:網路資訊擷取,即先利用搜尋引擎網站選擇待採集網站,再利用Robot程式採集靜態Web頁面,最後擷取被訪問網站網路資料庫中的動態資訊,產生WWW資源索引庫;
第四步:資訊特徵匹配,即提取索引庫中的源資訊的特徵向量,並與目標樣本的特徵向量進行匹配,將符合閾值條件的資訊返回給使用者。
三、網路資訊挖掘技術的應用前景
互連網為使用者提供了豐富的資源,但沒有一個很好的資訊挖掘工具是很難以擷取其中的有用資訊的。筆者以網路資訊挖掘技術在農業資訊領域中的應用為例進行簡單說明。隨著我國電信事業的進一步發展,網路資訊也正在加倍增長,特別地,農業是我國第一大產業,農業的資訊化必然要求我們要建立一個農業領域內的資訊挖掘系統,以滿足各層次使用者對農業資訊的需求。構建一個農業網路資訊挖掘系統,應以現有的成熟理論為基礎,結合當前WWW農業資訊資源的分布特色來逐步完成,可以將統計詞典細分為農業基礎科學、農業工程、農學、植物保護、農作物、園藝、林業、畜牧、水產、漁業等幾個專業詞典。這樣有利於提高匹配時的準確度,從而提高檢索的準確率。
在系統的構建過程中,涉及到三個比較關鍵的問題,分別闡述如下:
1. 目標樣本確定中問題
使用者特徵資訊的提取來源於其所瀏覽的網路資源(一般是HTML文本),將使用者瀏過的網頁提交給伺服器,以此作為使用者的目標樣本,目標樣本的數量以50條為宜,過少會因為
提取的關鍵詞過於稀疏而不足以表達使用者的特徵興趣,若過多,會增加系統開銷,需要較長的運算時間。在使用者特徵資訊提取演算法中,衡量詞條的權重,我們主要考慮詞頻(tfik)、逆文檔頻數(IDFi)以及位置因素。為了提高關鍵詞的特徵表達能力,我們還可以進一步考慮詞長、詞的分布性作為權重衡量因素。一般說來,詞長較長的詞能表達較為專指的概念,如“農作物栽培”要專指於“農作物”,相應的,要給“農作物栽培”較高的權重。詞的分布性是指詞在某一個文本中分布的情況,某一詞A非停用詞)在文章中每個段落都出現,而另外一個詞B出現在其中一個段落中,就認為A比B更具有特徵表達能力,因此給A賦予較高的權重。
2. 統計詞典的構造問題
使用者特徵資訊的提取和互連網資訊的自動索引都要涉及到分詞的問題。分詞效果的優劣與分詞演算法和分詞中所用到的統計詞典有很大關係。本系統中的中文分詞處理模組中採用“最長相符法”(MM匹配法)作為分詞演算法,用到的統計詞典主要由關鍵詞詞典、同義字詞典、相關詞詞典。其中關鍵詞詞典中的資料主要來自《中國圖書館分類法》(第四版)、《中國分類主題詞表》、《農業專業分類表》、《中文MARC》中的S類資料、《中文科技期刊資料庫》中的S類資料。資料的具體處理過程由於篇幅所限,將另文介紹。同義字詞典的資料主要根據以上的資料資源和《同義字詞林》來構造。在處理使用者查詢和文本分類等問題時,同義字詞典會顯示很大的作用。相關詞詞典由上下位類詞(如植物檢驗與果實檢驗)和蘊涵關係詞(如嫁接與矮化砧木、嫁接苗、接穗、橋接、中間砧、砧木、嫁接親和性等詞的關係)組成。此詞典的構造可由以上的資料資源及基於詞共現的統計演算法來確定。
農業網路資訊挖掘系統的設計中還應考慮到對使用者興趣的挖掘,如發現某一使用者的檢索產生的特徵向量中包含“蘆薈、種植”,則挖掘系統通過學習後應能加大特徵項“蘆薈、種植”的權重,並且利用反饋機制(user feed-back)實現資料的及時推送(Push)。此外可以通過群體使用者的興趣挖掘更深的知識,如發現某一地區的許多使用者檢索時產生的特徵向量中有“蘆薈”,則可推斷這個地區可能存在需求蘆薈這一現象,以此為依據,挖掘系統可以分析處蘆薈市場的地區需求情況,從而為蘆薈的流通提供一定的科學依據。
當前,在人工智慧等技術等發展還不成熟,利用統計數學模型來構建一個農業資訊網路挖掘系統具有一定的啟發意義,該系統的各部分還有待於進一步改進與提高。
參 考 文 獻
1. Gudivada V N.Information retrieval on the World Wide Web.IEEE Internet Computing,11997,1(5):58~68
2. 李水平.資料採掘技術回顧.小型微電腦系統,1998,19(4):74~81