Internet資訊擷取能力是研究生必備的一項素質。及時準確地擷取領域內的研究進展資訊,是保證研究工作創新性的前提;隨心所欲地大範圍地擷取資訊,是拓展知識面的有效手段;在浩如煙海的資料中快速定位自己急需的資訊,是解決問題的一條有效途徑。
隨著Internet的飛速發展,可擷取的資訊量日漸豐富,乃至出現資訊過載、資源迷向等問題[1]。搜尋引擎的問世,在一定程度上解決了Internet資訊擷取困難的問題。近年來,國內已有四五百篇文獻從各種應用背景和技術角度出發探討Internet資訊擷取及各種搜尋引擎的特點、用法等[2],但是,如何系統地有針對性地提高研究生的Internet資訊擷取能力(具體講,在Internet資訊擷取中應該把握哪些指標或尺度、如何去把握)又是一個值得探討和總結的新問題。本文提出了Internet資訊擷取廣度、純度、深度、速
度和柔度五項指標,結合研究生論文工作的實際需要,以執行個體形式探討了利用Google(www.google.com)為主的搜尋工具進行Internet資訊擷取的方法和技巧。
一、Internet資訊擷取廣度的拓展
一般來說,研究生在剛剛步入某一研究領域時,對該領域的知識都是比較陌生的,甚至是空白的,從Internet擷取相關資訊進行學習不失為一條便捷途徑。通過有導向性地拓展Internet資訊擷取的廣度,可以有效擴大研究領域相關的知識面。Internet資訊擷取廣度定義為W=IAcquired/IInternet,其中IAcquired為已擷取資訊量,IInternet為Internet可擷取資訊量,資訊量一般為網頁數量或文獻數量。廣度的拓展,即提高W值,從使用者角度講,只能通過提高IAcquired值來實現,IAcquired既受搜尋引擎索引量及查全率的制約,也受使用者搜尋指令的限定,可以通過選擇適當的搜尋引擎及拓展必要的關鍵詞等方法來拓展Internet資訊擷取的廣度。
執行個體1.選擇英文Google,拓展可用資訊的語言範圍。Google的網頁索引量已近43億,覆蓋250多個國家,支援132種語言,是目前最大的搜尋引擎。在第一次使用Google時,Google會根據當前作業系統確定語言介面(中國大陸地區一般為簡體中文)。對於中國的研究生來說,所熟悉的語言絕大多數都是漢語和英語,對於其它語種的資訊,即使搜尋到了也未必能看懂。如果將Google的使用語言設定更改為英文,則搜尋到的意大利語、法語、西班牙語、德語和葡萄牙語資料,Google均能提供其英譯文(點擊搜尋結果後面的“Translate this page”超級連結即可),這樣,大大拓展了可用資訊的語言範圍。如,關於robot的法文網頁765 000頁,德文網頁163 000頁,這些網頁的處理都是用中文Google所力所不能及的。
執行個體2.拓展關鍵詞,擴大相關資訊的覆蓋範圍。以搜尋“潛艇安全”相關知識為例,可以將待搜尋關鍵詞拓展為:潛艇、潛水艇、潛器、水下、海洋、海軍、安全、失事、事故、海損、沉沒、脫險、救援、救生、救生艇、救生鐘、救生艙、隱蔽性、不沉性、水聲、通訊、聲納、魚雷、水雷、攻擊、反潛、水下作業、水動力、水下機器人、水下航行器、submarine、life saving、rescue、simulation、underwater等,然後將擴充後的關鍵詞進行適當的組合搜尋。如,僅用“潛艇安全”作為關鍵詞在Google中搜尋所有網站,只可搜到43 300個網頁,再用“潛水艇安全”可搜尋到14 300個網頁(其中的3 000個網頁是用“潛艇安全”搜尋的結果中所不包含的),再用“submarine life saving”又可搜尋到51 700個網頁。在搜尋過程中,可以從同義字、近義詞、反義詞、諧音字、錯字(拼音錯、五筆錯、拼字錯)、別字、通假字、簡體字、繁體字、中文、外文、縮寫等方面著手對關鍵詞進行逐步拓展。
Internet資訊擷取廣度的拓展,保證了資訊擷取的全面性和廣泛性,但往往同時帶來資訊過載的負面效應,這便涉及到如何控制資訊擷取純度問題。
二、Internet資訊擷取純度的控制
Internet資訊擷取純度定義P=IValuable/IAcquired,其中,IValuable為已擷取的有可用價值的資訊量,P在W>0時有意義。P值的提高只能通過降低IAcquired來實現,與W值的提高是一對方向相反的矛盾過程。搜尋引擎的查准率是提高純度的前提條件(Google採用PageRank專利技術能提供準確率極高的搜尋結果),使用者的搜尋指令是控制純度的直接手段。搜尋資訊提純的基本做法是增加關鍵詞(邏輯與)、減除關鍵詞(邏輯非)或
短語搜尋,一般的搜尋引擎中都支援這些功能。在Google中還支援針對特定檔案類型(filetype)、網站網域名稱(site)、URL(inurl或allinurl)和網頁標題(intitle或allintitle)的搜尋。
執行個體3.使用邏輯組合縮小搜尋範圍。以搜尋“基於agent理論的智能機器人(intelligent robot)技術的資料”為例,表1給出了採用關鍵詞的各種邏輯組合在Google中的搜尋結果。從表1可以清晰看出純度控制的過程和效果。
表1 使用邏輯組合搜尋
搜尋方法 關鍵詞運算式 搜尋到的網頁數
單詞 robot 6 430 000
單詞邏輯與 intelligent robot 526 000
單詞邏輯與 agent intelligent robot 109 000
單詞邏輯與、非 agent intelligent robot –internet 49 900
短語邏輯與、非 agent "intelligent robot" –internet 850
執行個體4.使用限定詞在特定範圍內搜尋。以搜尋“MIT機器人研究文獻資料”為例,表2給出了依次對網站網域名稱、URL和檔案類型進行限定後在Google中的搜尋結果。從搜尋到的網頁連結(限篇幅未給出)可以看出,限定詞搜尋的針對性非常強,搜尋結果相當精確。
表2 使用限定詞搜尋
搜尋方法 關鍵詞運算式 搜尋到的網頁數
單詞 robot 6 430 000
限定網站網域名稱 robot site:mit.edu 12 800
限定URL robot site:mit.edu inurl:publications 247
限定檔案類型 robot site:mit.edu inurl:publications filetype:pdf 148
三、Internet資訊擷取深度的挖掘
研究生開題前,需要閱讀大量專題文獻。Internet上的專業技術文獻,絕大多數都賦存於各類Web資料庫中,普通搜尋引擎對這些資料庫一般都望塵莫及,必須使用各Web資料庫專用的聯機檢索系統才能挖掘到必要的資訊擷取深度。Internet資訊擷取深度定義為D=IWeb-DB/IValuable,其中,IWeb-DB為從Web資料庫中檢索到的資訊量,D在IValuable>0時有意義,D值的提高只能靠提高IWeb-DB值來實現。
現存的Web資料庫風格各異,但是科技文獻資料庫的檢索方法卻大同小異,一般都需要“登入-檢索-下載”幾個環節。各高校圖書館會提供本校可用的文獻資料庫檢索入口、帳號資訊及使用指南,此不贅述。
四、Internet資訊擷取速度的提高
Internet資訊擷取速度定義為 ,其中,tSearch為擷取到可用資訊所花費的搜尋時間,或稱資訊提純時間。提高S值可通過提高純度P值或降低tSearch值來實現。tSearch值受搜尋引擎響應速度的影響,但影響不大,如,Google有15000多台伺服器,200多條T3級寬頻,搜尋用時一般不超過0.2秒,所以,tSearch值主要還是受搜尋方法的影響,若能直接提供(而不是反覆試搜)儘可能完整的、必要的關鍵詞作為查詢線索並藉助搜尋引擎的特殊功能,則會迅速定位到目標資訊上。這一過程,與資訊擷取純度的提高是一致的,是加速提高P值的過程。
執行個體5.使用“手氣不錯”擷取資訊一步到位。研究生在論文工作中,常常需要查詢某實驗室的publications清單、某高校圖書館電子資源等,以瞭解相關研究資訊或檢索下載文獻資料,但卻沒有記住網址。可以將目標網站儘可能完整的名稱作為關鍵詞,利用Google首頁的“手氣不錯”功能,一般都可以直接開啟目標網頁,不用再把過多時間耽
誤在網址尋找上。如,用“清華大學圖書館”做關鍵詞,單擊“手氣不錯”按鈕可直接進入清華大學圖書館的首頁:http://www.lib.tsinghua.edu.cn/。
五、Internet資訊擷取柔度的增強
Internet資訊擷取柔度(即靈活性)定義為F=(W+P+D+S)/4,這是評價Internet資訊擷取
效果的綜合指標,前面探討的四項指標較多地依賴於搜尋引擎或檢索工具所支援的功能,而這項指標更多地依賴於使用者的經驗和技巧。增強Internet資訊擷取柔度需要使用者對關鍵詞的抽取與組合、Internet上目標資訊的分布位置和可能存在形式以及各搜尋引擎的用法與特長都有相當的熟悉程度。
執行個體6.用活搜尋引擎增強資訊擷取柔度。研究生在閱讀英文文獻時,經常遇到陌生的術語或者縮寫翻譯不出來,可以通過搜尋引擎來協助翻譯。以翻譯“These activities included mapping, soil and rock chip sampling, geophysical surveys and RC and diamond drilling.”中的“RC”為例,先在金山詞霸(http://www.iciba.net)、英華金典(http://www.powerdict.com)、Dictionary(http://dictionary.com)等線上詞典中尋找,均未查到,考慮使用搜尋引擎。
表3 給出了Internet翻譯資訊擷取的過程,第6步搜到“…both diamond and reverse-circulation (RC) drilling…”,第7步搜到“…反迴圈鑽進. reverse circulation drilling…”,由此確定“RC”是“反迴圈鑽進”的英文縮寫。
表3 用Google擷取翻譯資訊
步驟 搜尋範圍 關鍵詞運算式 搜尋結果(項)
1 金山詞霸 RC 0
2 英華金典 RC 0
3 Dictionary RC 0
4 Google簡體中文網頁 rc 103 000
5 Google所有網站 rc 14 900 000
6 Google所有網站 rc diamond drilling 12 100
7 Google簡體中文網頁 reverse circulation 417
參考文獻
1 王繼成等.Web資訊檢索研究進展.電腦研究與發展,2001,38(2):187-193
2 蔣福蘭.搜尋引擎提示.科技情報開發與經濟,2003,13(5):178-179