搜尋引擎Yahoo的分類體系及性能評價

來源:互聯網
上載者:User
關鍵字 搜尋引擎 評價 Yahoo

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

目前很多的搜尋引擎都是將人工編制的等級式主題目錄和電腦檢索軟體提供的關鍵字等檢索手段結合起來,完成網路資訊資源的組織任務。 Yahoo就是這種等級式主題指南類搜尋引擎的典型代表。

Yahoo的魅力,就在於它的可流覽式等級主題索引。 按照主題建立分類索引,提供全面的分類體系結構,並結合高品質的檢索軟體,Yahoo成功地建立起了一套獨特的資訊管理和組織機制,使得對網路資訊的全面檢索變成現實。 現對Yahoo的類目體系、分類原理、檢索方式、性能評價等作進一步的探討。

一、類目體系

Yahoo由14個基本大類組成,包括Art&Humanities(藝術與人文)、Business&Economy(商業與經濟)、Computers&Internet(電腦與網際網路/網路)、Education(教育)、 Entertainment(娛樂)、Government(政府)、Health(健康與醫藥)、News&Media(新聞與媒體)、Recreation&Sports(休閒與運動)、Reference(參考資料)、 Regional(國家與地區)、Science(科學)、SocialScience(社會科學)、Society&Culture(社會與文化)。

根據其擁有的資訊或網站的多寡及知識組織的需要程度,每一個基本類目下細分不同層次的次類目或子類目,愈往下的子類目中的網站其主題愈特定。 它建立了一個由類目、子類目等構成的可供流覽的相當詳盡的目錄等級結構。 其類目設計合理,結構完整、全面,類目等級層次鮮明,各級詳略、寬泛程度不一,從而為網上豐富的資訊資源的歸類,尤其是確切歸類提供了基礎。

二、分類原理

InternetScoutProject的分類專家AimeeGlassel認為,「印度著名分類專家和圖書館專家阮崗納贊的冒號分類法理論體系與Yahoo網路資訊資源的主體目錄之間存在著密切的聯繫」, 從而揭示了Yahoo應用分面分析方 法進行網路資訊資源的分類實質。 具體說來,可從以下幾點來深入地理解Yahoo的分面分類原理或基本過程。

1. 採用寬泛的主題領域建立分類索引

為了使其分類體系既具有無限的容納性,又具有相當的專指性,Yahoo採用較為寬泛的主題領域,通過分析兼綜合的方法建立較為完整的分類索引。 這與分面分類的思想不謀而合,因為將知識分為寬泛的類目即分面,多方面地反映主題內容以避免列舉式類表的線性單向式的結構正是阮崗納贊冒號分類法的主要原則所在。

2. 根據上下文進行資訊內容的組合

從Yahoo的分類結構外表看,也許會認為它與敘詞表很相近,因為Yahoo也是使用詞彙而非符號來組成相應的概念詞串。 但是,從組合類目的能力看,它遠遠比普通的敘詞表複雜得多。 通過分析Web頁面的內容特徵,得 到由Yahoo分類體系結構中某些類目片語成的概念詞串或標引詞串,將其放入相應的類目層次中。 在Yahoo的概念詞串或檢索詞串中包含的獨立的詞彙都含有自身的名字,但是一旦與其它片語合,則產生了一個上下文關係,擁有了一深層次的涵義。 從這一點上說來,與分面分類法也是極為相似的。

3.利用冒號標記資訊內容

現以「20世紀60年代印度在肺結核治療方面的研究」作為待分類標引的資訊內容來具體考察兩者的標記制度:

在阮崗納贊的冒號分類法中,該內容標引為:L,45;421;6;253;f.44‘N5

用詞代替相應的符號,則為:

Medicine,Lungs; Tuberculosis:Treatment; X-ray:Research.India‘1950

如果將分面公式中的相應標點符號用冒號代替,由此所形成的字串形式就是在Yahoo中用於描述資訊內容的 方法,相應地表示為:

Health:DiseasesandConditions:Tuberculosis

可見兩者在資訊描述上何其相似! Yahoo利用冒號作為統一的分隔符號進行了資訊內容的組織和描述,既保留了 原先的分面標記的特點,又在一定程度上簡化了標記制度,從而極大地提高了資訊分類標引的效率。

4. 提供不同的分類路徑入口

「虛擬的資訊集合」是Yahoo的一大優點,體現在其擁有的概念模式和引用次序(即分面排列次序)的靈活性 上。 在傳統的圖書館中,一本書只能放在書架的某一固定位置上。 但在數位化的世界裡,電子資訊資源卻不用再限制在唯一的物理位置上。 我們可以將某一資訊源分到類目結構的不同位置上。 通過將分面分析方法應用到網路資訊資源的組織中,Yahoo能夠為某一資訊源在其巨大的分類等級結構中提供不同的路徑分支入口,這樣就使其能夠從不同的路徑,為檢索相同內容的不同使用者提供服務,從而完成查詢。

例如,現欲查找美國Wisconsin-Madison大學所在的網頁,Yahoo就能提供如下幾種分類或檢索路徑:

(1)若從Regional:類目入手,則相應的分類路徑為:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
UniversityofWisconsin-Madison。

(2)若從Education類目入手,開始的幾級路徑為:Education:HigherEducation:CollegesandUniversities, 在CollegesandUniversities目錄下選擇地理區域的子類目「UnitedStates@」後,可以看到,又返回到Regional目錄下,之後就與上述路徑相同了。 其中的奧妙就在於符號「@」的運用,它提供類似于相關參照(crossreference)的作用,能夠指引使用者由某一子類目進入Yahoo的流覽性等級結構的其它分支中。

三、檢索方式

Yahoo能夠提供簡單檢索和細節檢索。 前者主要檢索其分類結構中的一級目錄,後者可使用關鍵字構成布林邏輯式進行檢索,其檢索軟體主要由OpenText公司提供。 兩者的結合堪稱珠聯壁合:一個提供強大的高品質的主題指南目錄,另一個則提供高水準的檢索工具。 而且,Yahoo在檢索時,也不光檢索自身的主題目錄,同時也會相應地檢索OpenText公司提供的收有100萬Web檔的OpenText資料庫。

誠然,Yahoo在檢索方式上上存在著一些缺陷,如:只能進行關鍵字檢索,並且只支援布林算符and和or,未提供near等,但通過在其主頁的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超連結, 指引使用者進入這些地方去搜索,從而彌補了Yahoo的若干缺陷。 因此,從總體上說來,Yahoo仍然是WWW上最流行的查詢工具之一。

四、性能評價

作為主題指南類搜尋引擎的典範,Yahoo具有以下優點:

1. 主題目錄與檢索軟體的完美結合

採用分面分析的方法,由資訊管理專家編制主題目錄,反映了人們在選擇和組織資訊時的知識和智慧,提高了目錄編制的品質。 同時,按照主題目錄以人工為主對提交的網頁進行篩選、歸類和組織,也能不斷克服單純由搜索軟體自動完成分類的缺陷,增強分類的條理性。 嵌入相應的檢索軟體或工具,並與之相集成,提供高質、高效的檢索服務,從而加快了系統的反映速度,提高了檢索的準確性,使得檢索結果更接近使用者的資訊需求。

2. 資訊檢索難度的降低

Yahoo的資料庫按照14個大類(各大類下又包含數量不等的小類)組織,其分類體系非常詳盡,因此是進行寬泛主題檢索的良好起點,特別是對於那些新使用者和模糊需求的使用者而言,選擇流覽可逐級展開的主題索引比構造檢索式要自然得多。 並且,在使用者所在的類目下,顯示了該級別的類目包含的條目數,如果使用者認為數量過多,還可在此範圍內使用關鍵字檢索。 Yahoo的目錄特徵和利用上下文的服務使得能夠實現快速和容易的檢索,從而在一定程度上降低了互聯網資訊檢索的難度,提高了系統的方便使用性。

3. 檢索結果的分類選擇

Yahoo由分類路徑入手,最終將檢索結構分成類目輸出,從而將極大地推動資訊的選擇。 它還對結果清單中的相應內容進行必要加工,加上一些描述的片語或句子,方便使用者流覽並選擇:如:〔*〕或〔cool〕標記表明該結果項在內容和版面設計都優於其他項;〔new〕表明是最近3日內收錄的最新內容;以及上述提及過的以「@ 」表示相關參照,以括弧裡的數位表示收錄的檔數量等等。 另外,Yahoo增加了結果顯示的類型,可以以相關網站、相關網頁、新聞等形式輸出相應的檢索結果。 總而言之,為了更好地實現為使用者服務的目的,Yahoo正不斷開發新的途徑和方法用以改善資訊檢索服務。

在總結Yahoo所具有的優勢的同時,也應注意它的缺陷,這些缺陷往往也正是主題指南類搜尋引擎的共同弊病所在:

1、由於互聯網資訊的迅猛增長,使得採集資訊的速度遠遠比不上網路資源的增長速度,更勿論編制主題目錄的速度了。 這就造成了所建立的資料庫規模較小,且在某些類目下收集的檔數量有限等缺點,使得使用者經常「乘興而來,敗興而歸」,滿足不了相應的資訊需求。

2、簡單檢索表中檢索詞之間缺省設置為「.or.」,且內含的自動截詞功能,使得在檢索中往往會出現許多不相關的檔,導致查準率降低。

3、為了適應不同使用者的查詢或檢索需求,Yahoo對相同的資訊內容往往能提供不同的路徑入口,並以符號「@」建立相應的參照。 這一方面加大了分類工作的難度,另一方面也使得其分類的一致性難以得到確切保障,所以,經常出現從某一路徑入手,卻無法查到Yahoo中所包含的資訊內容的現象。

4、待收錄的網頁或其它資訊內容的複雜度的增加也在無形之中加大了確切分類的難度,如與ActiveX技術相關的文獻就很難在Yahoo中確切歸類。

5、為了編制高品質的主題目錄並跟上網路資源發展的速度,必須投入相當大的人力、物力和財力,且對從事該項工作的人員的素質要求也日漸提高。 否則,將無法很好地保證其主題目錄的品質,也就從根本上無法提供優質的服務。

五、啟示和建議

Yahoo最關鍵也是最成功之處就在於它為搜尋引擎,尤其是主題指南類的搜尋引擎的設計和開發樹立了「摸板」。 借鑒Yahoo先進的搜尋引擎經驗,進一步完善網路資訊資源尤其是中文資訊資源的組織和管理,是歷史賦予我們的責任。 現就建立網上中文資訊資源的高質、高效的「導航器」,提出以下幾點建議:

1、Yahoo在數位化資訊的組織中成功地應用分面分析的思想,建立起了一套完整、全面、等級層次鮮明的主題目錄體系以提高資訊組織的品質,這一點值得我們借鑒與學習。

目前,國內的許多中文引擎或者因沒有分類路徑入口,而不能跟上未來形勢的發展;或者因目錄體系缺乏必要的分類主題理論基礎,而給資訊的確切歸類和準確檢索帶來了一系列的困難。 我們並不一定要照搬Yahoo的分類模式。 在具體的編制過程中,應從中國人的思維習慣、檢索習慣出發,結合國內已有的主題分類的理論體系(如:《中圖法》等),建立所需的分類框架。

2、應逐步增大資料庫的規模,從而奠定成功的資訊檢索的物質基礎。 建議可以通過兩種方式補充資料庫的內容:一是鼓勵使用者將自己網頁的位址(URL)通過連線表格遞交,二是由自身的巡視軟體不斷去發現網上新出現的檔,將之歸入資料庫,在補充的過程中,也應注意資料庫內容的定期更新。 關於這一點,現在的一些中文搜尋引擎做得還很不夠,往往只知盲目地填充資訊,卻缺乏對庫內容應有的維護工作,導致資料庫龐大臃腫,檢索效率低,資訊內容陳舊,查準率差。

3、鑒於單純依賴手工進行資訊歸類效率低的缺陷,應在這方面加強研究,考慮是否可將目前在文本環境中已經實現並在進一步完善的自動分類、自動標引和自動文摘等處理資訊內容的手段用到網路資訊資源的組織上來。 手工和機器輔助的結合,定能提高工作效率,改善資訊組織、管理的品質。

另外,應繼續加強檢索軟體的研製和開發工作。 WWW網頁內容多由圖像、動畫、聲音、視頻等多媒體資訊構成。 應積極探索這一類資訊的檢索途徑,而不僅限於關鍵字檢索方式。 目前,對多媒體資訊的存儲,標引和檢索正日益引起電腦和資訊管理領域人士的注意。 應密切跟蹤這方面技術的發展,並將其切實應用到中文引擎的檢索軟體的編制上來。

4、參與資訊採集、篩選和組織工作的人員素質的高低將直接或間接影響到編制的主題分類體系的品質。 因此,各個從事網路資訊服務業的部門或企業,尤其是開發中文搜尋引擎的部門或企業,應切實加強人員的培訓,特別是加強他們在資訊分類組織、電腦檢索等方面的能力。 網路資訊資源的組織和開發是一項艱難而又富有前途的工作,廣大的圖書情報界人士、資訊管理和電腦領域的專家應儘快轉變觀念,加入到開發的行列中來,從而不斷提高隊伍的素質。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.