仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
隨著網路資訊資源的急劇增長,人們越來越多地關注如何快速有效地從海量的網路資訊中,抽取出潛在的、有價值的資訊,使之有效地在管理和決策中發揮作用。 搜尋引擎技術解決了使用者檢索網路資訊的困難,目前搜尋引擎技術正成為電腦科學界和資訊產業界爭相研究、開發的物件。 本文旨在探討搜尋引擎技術在網路資訊挖掘方面的應用。
一、資料採礦的研究現狀
討論網路資訊挖掘,首先要從傳統的資料採礦談起。
1、什麼是資料採礦
根據W.J.Frawley和G.P.Shapiro等人的定義,資料採礦是指從大型資料庫的資料中提取人們感興趣的知識,而這些知識是隱含的、事先未知的、潛在的有用資訊。 原始資料可以是結構化的,如關聯式資料庫中的資料;也可以是半結構化的,如文本、圖形、圖像資料;甚至是分佈在網路上的異構型資料。 資料採礦的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。 挖掘出來的資訊可以被用於資訊管理、決策支援、程序控制等,還可用於資料自身的維護。 因此,資料採礦是一門廣義的交叉學科,它彙聚了不同領域的研究者,尤其是資料庫、人工智慧、數理統計、視覺化、平行計算等方面的學者和工程技術人員。
2、資料採礦的研究現狀
目前,國外在資料採礦方面的發展趨勢及研究主要有:對知識探索方法的進一步研究,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;統計學回歸法在KDD中的應用;KDD與資料庫的緊密結合 ;對網路資訊挖掘方法的研究等。 國外很多電腦公司非常重視資料採礦的開發應用,IBM和微軟都成立了相應的研究中心,一些公司的相關軟體也開始在國內銷售,如Platinum、BO以及IBM。
國內從事資料採礦研究的人員主要在大學,也有部分在研究所或公司。 所涉及的研究領域很多,一般集中于學習演算法的研究、資料採礦的實際應用以及有關資料採礦理論方面的研究。 目前進行的大多數研究專案是由政府資助進行的,如國家自然科學基金、863計畫、"九五"計畫等。
可以看出,資料採礦的研究和應用受到了學術界、實業界和政府部門的越來越多的重視。
3、資料採礦的分類及其工具
1)、根據資料採礦的應用類型不同,大致可分為以下幾類。 ①分類模型。 其主要功能是根據商業資料的屬性將資料分派到不同的組中,通過分析分組中資料的各種屬性,找出資料的屬性模型。 ②關聯模型。 主要是描述了一組資料項目目的密切度或關係,通過挖掘資料派生關聯規則,瞭解客戶的行為。 ③順序模型。 主要用於分析資料倉庫中的某類與時間相關的資料,併發現某一時間段內資料的相關處理模型。 它是一種在關聯模型中增加了時間屬性的特定的關聯模型。 ④聚簇模型。 主要用於當要分析的資料缺乏描述資訊或無法組織成任何分類模式時,按照某種相近程度度量方法將使用者資料分成互不相同的一些分組。 進而,通過採用聚簇模型,根據部分資料發現規律,找出對全體資料的描述。
2)、資料採礦採用的典型方法及工具
針對上述應用類型,資料採礦領域提出了多種實現方式與演算法。 這裡僅討論幾種常見的典型的實現方法。 ①神經網路。 它建立在可以自學習的數學模型的基礎之上,可以對大量複雜的資料進行分析,並完成極為複雜的模式抽取及趨勢分析。 神經網路對分類模型比較適合,但得出結論的因素並不十分明顯,其輸出結果也沒有任何解釋,影響結果的可信度及可接受程度;其次,它需要較長的學習時間,因此當資料量很大時,性能可能會出現問題。 ②決策樹。 是通過一系列規則對資料進行分類。 採用決策樹,可以將資料規則視覺化,其輸出結果也容易理解。 決策樹方法精確度比較高,構造過程簡單,因此比較常用。 其缺點是很難基於多個變數組合發現規則;不同決策樹分支之間的分裂也不平滑。 ③線上分析處理(OLAP)。 主要通過***的方式對使用者當前及歷史資料進行分析、查詢和報表,輔助領導決策。 ④資料視覺化。 資料倉儲中包含大量的資料,充實著各種資料模型,將如此大量的資料視覺化需要複雜的資料視覺化檢視。
目前,資料採礦技術正處在發展當中。 資料採礦涉及到數理統計、模糊理論、神經網路和人工智慧等多種技術,技術含量比較高,實現難度較大。 然而,資料採礦技術與視覺化技術、地理資訊系統、統計分析系統相結合,可以豐富資料採礦技術及工具的功能與性能。
4、網路資訊挖掘及其分類
網路資訊挖掘是一個極其複雜的過程,它不同于傳統的資料倉儲技術和簡單的知識發現(KDD),它面對的海量資訊不是全簡單的結構化資料,而常常為半結構化的資料,如文本、圖形、圖像資料,甚至是異構型資料。 發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。
網路資訊挖掘大致分為四個步驟:①資源發現,即檢索所需的網路文檔;②資訊選擇和預處理,即從檢索到的網路資源中自動挑選和預先處理得到專門的資訊;③概括化,即從單個的Web網站以及多個網站之間發現普遍的模式;④分析, 對挖掘出的模式進行確認或解釋。
根據挖掘的物件不同,網路資訊挖掘可以分為網路內容挖掘、網路結構挖掘和網路用法挖掘。 ①網路內容挖掘。 即從網路的內容/資料/文檔中發現有用資訊的過程。 網路資訊資源類型眾多,從網路資訊源的角度看,大量的網路資訊資源可以直接從網上抓取、建立索引、實現檢索服務,但是還有一些網路資訊是「隱藏」的,如由使用者的提問而動態生成的結果,或是存在DBMS中的資料,或是那些私人資料, 它們無法被索引,從而無法提供對它們有效的檢索方式;從資源形式看,網路資訊內容是由文本、圖像、音訊、視頻、中繼資料等形式的資料組成的,因此網路內容挖掘是一種多媒體資料採礦形式。 ②網路結構挖掘。 即挖掘Web潛在的連結結構模式。 這種思想源于引文分析,即通過分析一個網頁連結和被連結數量以及物件來建立Web自身的連結結構模式。 可以用於網頁歸類,並且可以由此獲得有關不同網頁間相似度及關聯度的資訊,有助於使用者找到相關主題的權威網站。 ③網路用法挖掘。 通過網路用法挖掘,可以瞭解使用者的網路行為資料所具有的意義。 網路內容挖掘、網路結構挖掘的物件是網上的原始資料,而網路用法挖掘則面對的是在使用者和網路交互的過程中抽取出來的第二手資料。 這些資料包括:網路伺服器訪問記錄、代理伺服器日誌記錄、瀏覽器日誌記錄、使用者簡介、註冊資訊、使用者對話或交易資訊、使用者提問式等等。
二、搜尋引擎的主要技術及其應用和發展趨勢
狹義上講,網路資訊檢索就是網路資訊(內容)挖掘的一種。 因此,要探討網路資訊挖掘,也有必要探討一下有關搜尋引擎的問題。
1、什麼是搜尋引擎
搜尋引擎是指網際網路上專門提供查詢服務的一類網站,這些網站通過網路搜索軟體(又稱為網路搜索機器人)或網站登錄等方式,收集網際網路上大量網站的頁面,經過加工處理後建庫,從而能夠對使用者提出的各種查詢作出回應, 提供使用者所需的資訊。 使用者的查詢途徑主要包括自由詞、全文檢索、主題詞檢索、分類檢索及其它特殊資訊的檢索(企業、人名、電話黃頁等)。
2、搜尋引擎的主要技術
搜尋引擎一般由搜索器、索引子、檢索器和使用者介面四個部分組成。 ①搜索器:其功能是在互聯網中漫遊,發現和搜集資訊。 它要盡可能多、盡可能快地搜集新資訊和定期更新舊資訊,以避免死連接和無效連接,為此搜索器的實現常採用分散式、平行計算技術,以提高資訊發現和更新的速度。 ②索引子:其功能是理解搜索器所搜索的資訊,從中抽取出索引項目,用於表示文檔以及生成文件庫的索引表。 索引子可以使用集中式索引演算法或分散式索引演算法。 ③檢索器:其功能是根據使用者的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種使用者相關性回饋機制。 常用的資訊檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。 ④使用者介面:其作用是輸入使用者查詢、顯示查詢結果、提供使用者相關性回饋機制。 分為簡單介面和複雜介面兩種。 簡單介面只提供使用者輸入查詢串的文字方塊,複雜介面可以讓使用者對查詢進行限制。
3、搜尋引擎的應用
目前幾個比較大的中文搜尋引擎是:雅虎中國;搜狐;新浪;網易;北大天網搜索(HTTP://e.pku.edu.cn)等。
在Internet的資訊海洋裡尋找資訊,首先,應該使用一個以上搜尋引擎,除非你第一次就發現完美的搜尋結果。 其二,通過大量實踐,仔細體會每個搜尋引擎的特色和功能。 其三,統計表明,很多使用者只輸入一個詞進行查詢,查詢結果往往有很多冗余。 建議同時使用多個詞以縮小搜尋範圍。 其四,若最初的查找並不成功,可以用同義字進行查找。 此外,平時應多注意積累優秀的專業網站和資料庫網址。
據***IC于2000年7月27日發佈的統計資料,搜尋引擎的使用已經占到網路應用的55.91%,成為中國當前第二大互聯網應用,僅次於收發E-Mail,搜尋引擎的重要性已成為網站建設的重要功能,成為網路資訊挖掘的主要途徑。
4、搜尋引擎的未來發展趨勢
隨著WWW資訊的指數增加,目前的搜尋引擎存在搜索速度慢、死連結太多、重複資訊或不相關資訊較多,難以滿足人們的各種資訊需求,搜尋引擎將向智慧化、精確化、交叉語言檢索、多媒體檢索、專業化等適應不同使用者需求的方向發展。 ①智慧化的搜尋引擎:它是搜尋引擎的發展方向。 它利用智慧代理技術對使用者的查詢計劃、意圖、興趣方向進行推理,自動進行資訊搜集過濾,自動地將使用者感興趣的、對使用者有用的資訊提交給使用者。 ②重視查詢結果的精度,提高檢索的有效性:解決查詢結果過多的現象目前有以下幾種方法:a.構建基於內容的搜尋引擎。 基於內容的搜索的比較成熟的解決方案是依靠語義網路、漢語分詞、句法分析、處理同義字等資訊處理技術最大程度地瞭解使用者的資訊需求。 b.將使用者提問轉化為系統已知的問題,然後對已知問題進行解答,以求降低對自然語言理解技術的依賴性。 c.用正文分類技術將結果分類,使用視覺化技術顯示分類結構,使用者可以只流覽自己感興趣的類別。 d.進行網站類聚或內容類別聚,減少資訊的總量。 e.讓使用者對返回結果進行選擇,進行二次查詢是一種非常有效的手段。 ③實現交叉語言的檢索:對多種語言的資料庫進行交叉語言資訊檢索,返回能夠回答使用者問題的所有語言的文檔。 該技術目前還處於初步研究階段,是搜尋引擎的發展方向。 ④多媒體搜尋引擎:由於未來的互聯網是多媒體資料網路,開發出可查詢圖像、聲音、圖片和電影的搜尋引擎是一個新的方向。 ⑤專業化搜尋引擎:是為了專門收錄某一行業、某一主題或某一地區的資訊而建立,具有針對性強、實用性強的特點。 如商務查詢、企業查詢、人名查詢、專業資訊查詢等等。
三、搜尋引擎在網路資訊挖掘中的應用
1、搜尋引擎在網路資訊挖掘中的應用實例
下面以國外著名的搜尋引擎Google(HTTP://www.google.com)為例,剖析網路資訊檢索在網路資訊挖掘中的應用。 首先我們先看一下Google的體系結構(見圖1)。
Google的搜索機制是:幾個分佈的Crawler(自動搜索軟體)同時工作——在網上「爬行」,URL伺服器負責向Crawler提供URL的清單。 Crawler所找到的網頁被送到存儲伺服器中。 存儲伺服器於是把這些網頁壓縮後存入一個知識庫(repository)中。 每個網頁都有一個關聯ID——doc ID,當一個新的URL從一個網頁中解析出來時,就被分配一個doc ID。 索引庫和排序器負責建立索引,索引庫從知識庫中讀取記錄,將文檔解壓並進行解析。 每個文檔就轉換成一組詞的出現狀況,稱為hits。 hits記錄了詞、詞在文檔中的位置、字體大小、大小寫等。 索引庫把這些hit又分成一組「barrels」,產生經過部分排序後的索引。 索引庫同時分析網頁中所有的連結,並將重要資訊存在Anchors文檔中,該這個文檔包含了足夠資訊,可以用來判斷一個連結被鏈入或鏈出的結點資訊。
URL分解器(URL Resolver)閱讀Anchors文檔,並把相對的URL轉換成絕對的URLs,並生成doc ID,它進一步為Anchor文本編制索引,並與Anchor所指向的doc ID建立關聯。 同時,它還產生由doc ID對(pairs of doc ID)所形成的資料庫。 這個連結資料庫(Links)用於計算所有文檔的頁面等級(Pagerank)。
排序器會讀取barrels,並根據詞的ID號(word ID)清單來生成倒排擋。 一個名為DumpLexicon的程式則把上面的清單和由索引庫產生的一個新的詞表結合起來產生另一個新的詞表供搜索器(Searcher)使用。 這個搜索器就是利用一個Web伺服器,並使用由DumpLexicon所生成的詞表,並利用上述倒排擋以及頁面等級來回答使用者的提問。
從Google的體系結構、搜索原理中可以看到,其關鍵是:利用URL分解器獲得Links資訊,並且運用一定的演算法得出頁面等級的資訊,這正是網路結構挖掘技術。
2、網路資訊挖掘的應用前景
網路資訊挖掘已廣泛地應用於金融業、零售業、遠端通訊業、政府管理、製造業、醫療服務以及體育事業中,對它的應用和研究正在成為一個熱點。 網路資訊挖掘的應用前景主要表現在三個方面:①電子商務。 運用網路挖掘技術能夠從伺服器和瀏覽器端的日誌記錄中自動探索隱藏在資料中的模式資訊,瞭解系統的訪問模式以及使用者的行為模式,從而作出預測性分析。 例如通過評價使用者對某一資訊資源流覽所花的時間,可以判斷出使用者對資源興趣如何;對日誌檔所收集到的功能變數名稱資料,如國家或類型(.com,.edu,.gov)的分類分析;應用聚類分析來識別使用者的訪問動機和訪問趨勢等。 ②網站設計。 通過對網站內容的挖掘,可以有效地組織網站資訊,例如採用自動歸類技術實現網站資訊的層次性組織;通過對使用者訪問日誌記錄資訊的挖掘,把握使用者的興趣,有助於開展網站資訊推送服務以及個人資訊的定制服務。 ③搜尋引擎。 用搜尋引擎進行網路資訊挖掘的最大特色體現在它所採用的對網頁Links資訊的挖掘技術上。 如通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網路資訊的分類流覽與檢索;通過使用者所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高使用者的檢索效果(查全率,precision;查準率,recall) ;運用網路內容挖掘技術改進關鍵字加權演算法,提高網路資訊的標引準確度,從而改善檢索效果。
上面僅僅列舉了網路資訊挖掘技術在這三個方面的應用。 這項技術的應用正變得越來越廣泛;使用者對高品質、個人化的資訊的需求必將推動學術界與實業界的研究開發工作。
四、結束語
面向Web的資料採礦是一項複雜的技術,由於Web資料採礦比單個資料倉儲的挖掘要複雜的多。 我們相信,隨著XML作為在Web上交換資料的一種標準方式的出現、使用者資訊需求的多樣化、網路資訊挖掘研究的不斷深入,「智慧化」的搜尋引擎將會湧現,面向Web的網路資訊挖掘也將會變得非常輕鬆。