全文檢索

來源:互聯網
上載者:User

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

現實社會中,大量的資訊主要以文字檔、超文字檔、多媒體檔案等非結構化檔形式存在,如何管理如此海量的資訊呢? 首先,必須解決資訊的有序存儲問題;其次,要解決資訊的快速檢索問題。




TBS分散式全文檢索系統




分散式全文檢索系統適用于各種全文資料庫資料的檢索。 它的邏輯結構如上圖所示,分外網和內網兩個部分。 外網與Internet連接,提供www服務,內網提供控制和資料服務。 兩網之間通過TCP/IP協定進行通信,從外網進來的請求不能直接到達內網,確保了內網資料的安全。




Web Server與TBS Server 採用Client/Server的結構。 EBS Server負責整個系統的調度、使用者及許可權控制的工作,管理所有的資料庫資源,對資料的輸出進行流量統計,對使用者的操作進行日誌記錄。 使用者訪問本系統時首先由Web伺服器WWW-0進入,而為了提高使用者的存取速度,Web伺服器WWW-1、WWW-2、WWW-3是可由EBS進行統一調度和任意擴展的。 TBS-1、TBS-2、TBS-3、TBS--1、TBS--2、TBS--3是系統的後臺全文資料庫伺服器。 橫向三個用於存放不同的資訊內容,縱向兩個用於存放相同內容的備份。 使用者既可從本地也可遠端通過瀏覽器方式或運算元據庫方式進行錄入,同時,還可以通過瀏覽器來遠端進行資訊的流覽、檢索和維護。 該系統檢索速度快,支援字、詞、長句子的混合檢索,對新增資訊能夠即時、自動追加索引,且能保證空間膨脹率為零。




多媒體全文檢索光碟製作及出版系統




多媒體全文檢索光碟出版系統適用于檔資料選編、報紙雜誌合訂以及網站頁面打包。 它支援多種作業系統平臺(Win95/97/98/NT/2000)和多種Web瀏覽器(如Netscape、MS、IE),提供全部配套軟體,即裝即用,還可開發以下三種不同模式的光碟應用:




1.完全基於瀏覽器(CDWeb/CBS)的模式。 特別適用于圖文資料檢索。
2.IE瀏覽器和ActiveX控制項結合(InfoView/ Edit)的模式。 特別適用于資料庫檢索。
3.Win32程式(CDMake/CDRun)模式。 特別適用于文字、圖形、多媒體資料的檢索。




該系統具有以下特點:




* 所有頁面均可由使用者靈活調整,便於與HTML頁面掛接;




* 支援欄位/全文檢索、組合檢索等,並可以進行二次檢索、多庫檢索;




* 支援欄位、層次、代碼等多種流覽方式,並可在流覽時進行二次檢索;




* 支援圖文混排,支援圖像、視頻、動畫等多媒體資訊的直接播出;




* 支援各種排版格式的WORD/EXCEL/PDF檔,可按原版面風格流覽;




* 系統詞表(11萬)與專業詞表相結合;   * 對於特殊應用CBScript範本語言,可支援程式設計級的開發;




* 提供底層全文資料庫DLL擴展介面,使用者可通過 VC/VB擴展應用。




Internet資訊發佈及全文檢索系統




針對一般傳統資料庫對欄位、結構、標題、關鍵字等內容定義的限制和檢索速度慢的缺陷,Internet資訊發佈及全文檢索系統採用快速模糊檢索演算法,將結構化資料庫與非結構化全文資訊庫完美地結合在一起。 它在內網可構築單位辦公自動化管理系統、文檔資料管理系統,在外網可用於構築Internet資訊發佈、電子商務網站平臺。




該系統的功能特點如下:




* 回應速度快,實現海量資料庫毫秒級、亞秒級查詢;




* 一次檢索可以跨至1024個資料庫;




* 對於中文可字詞結合索引,支援中英文(全形/半形)混合檢索;




* 具有停用詞( Stop-list )處理和檢索詞邏輯運算(與、或、非、差、優先、相鄰、異或)功能;




* 支援漸次逼近檢索、部分一致匹配、距離檢索、同義字擴檢;




* 具有Web資料庫管理功能;




* 支援欄位內容加密/解密和壓縮/解壓縮;




* 提供系統級、資料庫級、記錄級、欄位級、內容級五級安全控。




TBS全文檢索資料庫




"金信橋"從資訊管理的最基礎做起,首先成功開發了TBS全文資料庫。




該資料庫主要針對非結構化檔管理設計,能夠在單庫中管理42億條記錄(每條記錄/欄位都可容納任意長度的資訊);定義多種欄位類型;建立多種索引方法(欄位索引、全文索引、層次索引、代碼索引)。 另外,它還獨具多值欄位、欄位加密、內容壓縮、自動編碼、使用者詞典等功能。




對不同類型的檔,TBS資料庫系統還自帶資料轉換工具,既可將標準格式、特殊格式的文本資訊裝入到全文資料庫中,也可將各種關係資料庫(如DBF、SQL Server、Oracle、DB2、Sybase等)中的資訊直接裝入。




智慧全文搜尋引擎




在TBS全文資料庫的基礎上,"金信橋"又建立了Internet 網站全文搜尋引擎(NetBot),主要用於對指定網站中的靜態頁面進行頁面資訊收集、全文資訊提取和索引,允許前臺使用者在瀏覽器中按頁面中的任意字詞進行全文檢索, 並提供給使用者進行分類流覽的導航工具。




NetBot是一個智慧化的中英文網頁搜索器,它自動週期性地掃描網站和頁面URL,以便及時發現更新的頁面,並去除已經失效的URL連接,對資料進行即時更新。 另外,它還對設定的URL集合進行定時搜集、分析和加工整理,並自動將有關資訊入庫、索引,為在瀏覽器上的全文檢索搜尋提供後臺資料




網頁範本編寫語言




為了配合全文檢索系統的運用,"金信橋"採用了標準的JavaScript、C、ASP、JSP等語言的語法,開發出了一套語法精練的CBScript網頁範本編寫語言。 它使得編譯執行的速度極快,並且提供了大量的頁面範本可直接調用,還內置了全文資料庫管理、全文檢索引擎、電子郵件收發、新聞檔管理、遠端檔案傳輸、加密/解密、壓縮/解壓縮、身份驗證、資源管理、動態調度等模組, 藉此使用者可進行極具個人化的二次開發。




金信橋全文檢索系統是目前國內唯一具有三層結構、分散式動態負載均衡、多機並行檢索、超大容量、多語種、多媒體、高可靠性的全文檢索系統。 以下幾個它派生出的應用系統都是基於Web開發的,均採用範本技術,使使用者可在不程式設計的情況下對Web頁面進行靈活修改,並支援多使用者併發檢索及同時維護(沒有使用者數限制)。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.