面向機器翻譯的全文檢索索引系統

最後更新：2018-12-05 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

面向機器翻譯的全文檢索索引系統
摘要：本文介紹了面向機器翻譯的全文檢索索引系統的設計和實現，該系統在實現倒排檔存
儲結構和布爾邏輯檢索、位置檢索、檢索相關性排序等普通全文檢索索引系統功能的基礎上
，提供面向機器翻譯的多層次檢索和跨語言檢索功能。針對機器翻譯中篇章、段落模糊
檢索的難題，本文提出了縮檢、精檢的方法，並通過對文檔的特徵分析以及選擇適當的
檢索運算式模型，解決了面向機器翻譯檢索中相關性判別的問題，在句子相似性的計算
中運用了動態規劃的思想。
關鍵詞：機器翻譯、全文檢索索引、段落檢索、篇章檢索
一、引言
隨著人們對語言學認識的深入和電腦技術的發展，機器翻譯技術得到迅速發展，湧現
出了一批實用化的機器翻譯系統，特別是INTERNET 的發展使得網路機器翻譯系統應雲而
生。鑒於機器翻譯是一個涉及語言學、計算數學、電腦技術、認知科學等多個領域綜
合性的交叉科學，由於語言本身固有的複雜性和受目前人工智慧發展水平的限制，機器
翻譯譯文品質仍然與客觀需要有一定的差距，往往需要人工進行譯後編輯，且翻譯速度
因需用詞典、規則做大量的文法、語義分析而與使用者的需求也存在差距，因而提高機器
翻譯譯文正確率的工作是極其艱巨的。
因有重複翻譯的需求，尤其是Internet網上的網頁有很大的繼承性，因此，我們提出存
儲以前經過人工編輯或品質高的翻譯結果，利用現有的翻譯經驗，不斷提高機器翻譯的
速度和品質的思想。作者根據一般全文檢索索引系統的設計原理和規則，針對機器翻譯系統
的特點，設計並實現了面向機器翻譯的全文檢索索引系統。該全文檢索索引系統不僅具有改進的
全文檢索索引功能，而且提供面向機器翻譯的多層次檢索和跨語言檢索功能。
二、功能和總體結構
本系統同時提供面向使用者和面向機器翻譯的資訊檢索功能。面向使用者的檢索提供普通全
文檢索系統的準系統，使使用者能充分利用已收集的雙語資訊，支援跨語言檢索。面向
機器翻譯的檢索輔助機器翻譯系統進行翻譯，如果使用者對機器翻譯系統已翻譯過的相似
文檔(或段落)提出翻譯需求，系統可以直接調用已儲存在雙語資訊庫中的譯文資訊，從
而提高翻譯系統處理速度；此外，由於儲存在資訊庫中的譯文均已經過不同程度的譯後
編輯，因此，提供給使用者的翻譯結果就更準確。
該系統設計和實現基於以下主要原則：(1) 繼承普通全文檢索索引系統的功能；在其基礎上
，提供相關反饋的機制，增加機器翻譯系統使用的檢索功能；(2) 模型具有開放性，支
持多語種的擴充；(3) 系統易於維護，保持中英文索引結構的一致性；(4) 滿足網路環
境下翻譯、查詢處理即時性高、資訊量大的要求。
系統在倒排檔的基礎上，採用符合使用者查詢習慣的布爾檢索模式，為使用者檢索和機器翻
譯的檢索提供快速和準確的檢索結果。系統結構如所示:
各模組功能：
* 資訊文檔的預先處理模組
資訊預先處理對不同來源的非純文字文檔進行格式過濾，系統同時儲存其原文檔及相應的
純文字文檔，使使用者能夠檢索到以不同格式存在的文本資訊。
* 索引模組
索引模組對文件庫中的文檔進行分析，建立各種索引資訊為檢索提供基礎和保證。主要
內容包括：建立記錄文檔特徵資訊的倒排檔；建立雙語文檔及其內部段落之間的對照關
系；進行文本分析，提取文檔外部特徵等。
* 面向使用者的檢索模組
根據使用者的查詢要求，讀取文檔資訊的特徵記錄，查到使用者所需資訊。主要內容包括：
檢索運算式的處理、檢索處理、檢索擴充處理、相關性排序、相關反饋等。
面向使用者的檢索同時也是面向機器翻譯檢索的基礎。系統首先對輸入的檢索運算式進行
分析並查錯，然後分別按單個可檢詞進行檢索，經過對檢索運算式中可檢詞的組合運算
，最後得到檢索結果並排序輸出。
* 機器翻譯檢索模組
針對機器翻譯系統對篇章、段落的查詢需求，根據系統模糊度的要求，在雙語資訊庫中
檢索出相同的篇章段落及其譯文，或者給出雙語庫中未存該尋找對象的結論。這是本系
統的核心模組。
三、面向機器翻譯的檢索
篇章、段落精確匹配的機率較少，也容易實現。而如何根據機器翻譯的需求，快速、准
確尋找“相似”的篇章、段落是整個檢索的重點和關鍵問題。本文採用逐步求精的方法
實現。對於篇章檢索，首先按外部特徵進行匹配，如存在，則對匹配結果直接進行精檢
。若不存在，提取其主題詞（集合）組配成檢索運算式進行縮檢。然後在縮減結果中進
行支援模糊比對的精檢，最終擷取檢索結果。對於段落檢索，直接按縮檢、精檢的方式
進行處理。
3．1 縮檢
縮檢是指首先抽取代表要檢索篇章、段落特徵的主題詞（集合），然後，根據這些主題
片語成的檢索式在倒排檔中尋找相關篇章、段落，迅速縮小精檢範圍的處理過程。
3．1．1 主題詞提取
由於網路資訊檢索具有較高的即時性要求，且此處的主題詞提取是為了構造檢索式，加
快檢索速度，所以，對主題詞的抽取不可能進行詳盡的文法語義分析，也不適於用逆文
獻詞頻法，所以本系統採用下述基於統計的方法實現。確定主題詞時系統優先考慮以下
標引詞：1)在標題或副標題句中出現的關鍵詞，以及各級層次標題。對層次高的標題賦
予較大權值。層次標題由面向機器翻譯的層次檢索系統提取。2)文摘、關鍵詞等特定位
置的關鍵詞。3)段首、段尾中出現的關鍵詞。4)相同條件下，詞頻較高且長度較長的標
引詞權值大。
主題詞加權函數的計算公式為：
其中，Pw為累計位置權重；Freg為該詞的詞頻；Len為詞長，Lmin是詞長下限；c為一常
數，對於中文詞，長詞的專指性較高， c可取大些，對於英文詞，差距不如中文明顯，
c可小些。
Pw的初值定義為0。對於上述情況中關鍵詞的每一次出現：1) 標題中，Pw = (；層次標
題中Pw = Pw + 10 * I(I為層次)；2) Pw = Pw + 5；3) Pw = Pw + 1；關鍵詞在其它句
中出現一次時，Pw = Pw + 1/句中總詞數。
3．1．2 相關性檢索
由於本全文檢索索引系統支援檢索詞在同一段落中的查詢，因此段落檢索式的構造相對簡單
，在提取出的主題詞之間加上同段位置運算子即可，然後用此檢索式在倒排檔中尋找相
關段落。
篇章的檢索是一種相關性判別，目前，在相關性判斷方面取得較好成績的系統多採用向
量空間模型，如Salton領導下的SMART實驗系統，但這種檢索模型還沒能在實用系統中運
用。有的系統採用的辦法是，把所有提取出的主題詞用或運算串連，在倒排檔中檢索以
縮小一定的範圍，再在此範圍內對所有文檔產生空間向量以確定與查詢文檔的相關程度
。不過，本人認為這種方法效率不高，回應時間太長，不適合我們系統即時的要求。
本系統的篇章檢索運算式採用加權檢索提問式，避免布爾檢索模型不能表達特徵詞的重
要程度的弊端，又易於在已選模型上實現。其方法是通過在檢索式中提供主題詞的權值
，根據檢索文檔與查詢的相關程度是否超過閥值來確定該文檔是否符合檢索條件。
度量相似性公式：
其中，採用TF*IDF律指定文檔關鍵詞權重。M是資料庫中的文檔總數，Nt是包含詞t的文
檔數，fdt為詞出現頻率。是文檔的長度，通過計算標引詞的數量得到。
3．2 精檢
精檢是指在縮檢得到的候選文檔集合中進一步匹配並得到最終檢索結果的過程。
系統優先進行重要特徵的比較，以儘早排除不可能匹配的文檔，縮小後期處理的範圍。

需要檢索的篇章，先分解成段落，並分別按段落精檢方法進行檢索。段落精檢允許一定
的模糊性。當兩個段落的結構特徵基本匹配後，進一步劃分句子，通過對句子進行相似
度的計算，最後判斷段落是否匹配。系統運用了動態規劃的方法計算句子的相似性。
把待翻譯句子中的單詞列為I-J平面的I軸上，執行個體句子中的單詞列為J軸上，其中，格點
(i,j)的值為詞i與詞j間的相似性。兩條語句間的相似性是一條原點到(I，J)的路徑，語
句相似性的值為路徑上所經過格點的匹配度之和。那麼，句子間的相似性計算就轉化為
在I-J平面中尋找一條最佳路徑，使兩語句的相似性最大。
為追求速度和準確性，目前的相似性查詢不做同義字擴充等操作，狀態k結點處的詞間相
似度D(ik，jk)可簡單定義為：如i,j相同，為1，否則為0。狀態轉移方程為：(ik，jk)
=uk(ik-1，jk-1)。
並且相似語句匹配的路徑具有一定的限制條件：(1)單調性限制，要求路徑必須是從起點
向右或向上延伸的。(2) 全域路徑限制，傾斜路徑優於豎直或水平路徑。 (3)局部路徑
限制，(ik,jk)的後序結點只計算(ik+1,jk)、( ik,jk+1)、(ik+1,jk+1) 三種情形，並
不會出現直角。
原點到(I，J)全路徑的相似性S為：
動態規劃的階段最優遞推公式為：
語句間的相似性定義為：
其中，n為待翻譯句子中的詞數。取相似性最大的語句作為檢索結果，若不存在相似性大
於閥值的語句，返回查詢失敗標誌。
這樣我們就可以根據各個句子的相關度定義段落的相關度，從而檢索出所需段落，甚至
篇章。
3．3 縮撿中相關性效能分析
首先通過例子介紹加權檢索的原理。
例如：查詢自然語言處理中的網路機器翻譯方面的文獻，用加權檢索法提問式如下：
自然語言處理(1)機器翻譯(3)網路(2)
如文獻中同時包含三個詞，則此文獻的權值為1 + 3 + 2 = 6；如文獻中包含自然語言處
理、機器翻譯，則此文獻的權值為1 + 3 = 4...以此類推。如設定下限閥值為4 的話，
同時包含三個詞，或同時包含兩個詞(除自然語言處理、網路的組合外)都為命中的情況
。
下面我們與向量空間模型做個對比。
在向量空間模型中，將文獻和提問都表示成向量。假設文獻集合共有m個不同的標引詞t
1,t2, …,tm，則集合中的每篇文獻都可以用這m個標引詞中的若干個予以表示。任一文
獻可表示為標引詞向量空間中的一個向量：
D = (T11, T12, ......, T1m)
同樣地，一個提問Q也可以表示為

----------------------------------------------------------------------------------------------

搜尋引擎在幕後怎樣工作
作者　中國科學院軟體研究所　朱潔
　　電腦處理的資料量不斷地呈指數增長，隨著資料資訊庫積累的資料和主題越來越多，怎樣快速、有效、經濟地檢索某個主題的所有資訊，就成了一個十分熱門的課題。解決這一難題的方法之一是採用智能搜尋技術。本文中給出了自然語言處理的結構梗概，以及最終有助於網路使用者尋找資訊的全文檢索索引技術。
尋找資訊
　　資訊檢索主要研究資訊的表示、儲存、組織和訪問。即根據使用者的查詢要求，從資訊資料庫中檢索出與之相關的資訊資料。資訊檢索已從手工建立關鍵字索引，發展到電腦自動索引的全文資訊檢索、自動資訊文摘、自動資訊分類，並正朝著自然語言處理的方向發展。
　　在資訊檢索領域，英語資訊檢索的發展較為迅速。如由Salton等人開發的SMART資訊檢索系統，可以利用向量空間表示檢索資訊內容，並將自然語言處理應用於資訊檢索，大大提高了資訊查詢的準確性。中文資訊檢索系統的發展相對較慢，目前已有的中文檢索系統絕大部分仍為關鍵詞檢索，甚至許多系統還處於“字”索引階段。不僅效率較低，而且資訊檢索的精度和準確性很差。究其原因，是因為中文資訊檢索有自身的特點，比如中文語詞之間沒有空格，因此在索引前需要進行語詞切分。另一方面，與英語相比，漢語句法分析和語義理解更為困難，造成中文資訊檢索的發展較為緩慢。
資訊檢索模型
　　資訊檢索系統的核心是搜尋引擎，它需要從紛繁複雜的大量資訊中，篩選出符合使用者需求的資訊。例如，使用者希望從資訊庫中查詢有關電腦網路產品銷售方面的資訊，如果查詢出的結果為電腦軟體產品方面的資訊，則不能滿足使用者的需求。根據搜尋引擎尋找相關資訊方式的不同，可將資訊檢索分為：布爾邏輯模型、模糊邏輯模型、向量空間模型以及機率模型等。
　　布爾型資訊檢索模型，是最簡單的資訊檢索模型，使用者可以根據檢索項在文檔中的布爾邏輯關係提交查詢，搜尋引擎根據事先建立的倒排檔案結構，確定查詢結果。標準布爾邏輯模型為二元邏輯，所搜尋的文檔要麼與查詢相關，要麼與查詢無關。查詢結果一般不進行相關性排序。如查詢“電腦”，只要文檔中出現關鍵詞“電腦”，則全部包含在查詢結果中。為了克服布爾型資訊檢索模型查詢結果的無序性，在查詢結果處理中引進了模糊邏輯運算，將所檢索的資料庫文檔資訊與使用者的查詢要求進行模糊邏輯比較，按照相關的優先次序排列查詢結果。例如，查詢“電腦”，那麼出現“電腦”較多的文檔將排列在較前的位置。
　　與布爾型資訊檢索模型不同，向量空間模型用檢索項的向量空間來表示使用者的查詢要求和資料庫文檔資訊。根據向量空間的相似性，排列查詢結果。向量空間模型不僅可方便地產生有效查詢結果，而且能提供相關文檔的文摘，並進行查詢結果分類，為使用者提供準確定位所需的資訊。
　　基於貝葉斯機率論原理的機率模型不同於布爾和向量空間模型，它利用相關反饋的歸納學習方法，擷取匹配函數。
　　雖然不同檢索模型使用的方法不同，但所要達到的目標是相同的，既按照使用者要求，提供使用者所需的資訊。實際上，大多數檢索系統往往將上述各種模型混合在一起，以達到最佳的檢索效果。
資訊檢索系統結構
　　搜尋引擎構成資訊檢索系統的核心。然而，資訊檢索系統還包括對索引資訊文檔格式的預先處理、索引資訊的分析、資訊索引和使用者資訊檢索等幾個階段。
資訊預先處理
　　資訊預先處理包括資訊格式轉換和過濾兩個不同層次。信關作為訪問不同資訊的機構，能夠訪問不同組織形式的資料資訊，如各種資料庫、不同檔案系統以及網路Web頁面等。同時，資訊預先處理也能夠過濾不同格式的文檔。如Microsoft Word、WPS、Text和 HTML等。這使得搜尋引擎不僅能夠檢索本文文檔，而且能夠檢索原始格式的文檔資訊。
資訊索引
　　資訊索引就是建立文檔資訊的特徵記錄，它使使用者能很容易地檢索到所需資訊。建立索引需要進行下列處理：
資訊語詞切分和語詞詞法分析
　　語詞是資訊表達的最小單位，而漢語不同於西方語言，其句子的語詞間沒有分隔字元（空格），因此需要進行語詞切分。漢語語詞切分中存在切分歧異，如句子“使使用者滿意”可切分為“使/使用者/滿意”，也可能被錯誤地切分為“使用/戶/滿意”。因而需要利用各種上下文知識解決語詞切分歧異。此外，還需要對語詞進行詞法分析，識別出各個語詞的詞幹，以便根據詞幹建立資訊索引。
進行詞性標註及相關的自然語言處理
　　在切分的基礎上，利用基於規則和統計（馬爾科夫鏈）的方法進行詞性標註。基於馬爾科夫鏈隨機過程的n元文法統計分析方法，被證明在詞性標註中能達到較高的精度。在此基礎上，還要利用各種文法規則，識別出重要的短語結構。
建立檢索項索引
　　一般使用倒排檔案的方式建立檢索項相關資訊,如表1所示。相關資訊一般包括“檢索項”、“檢索項所在檔案位置資訊”以及“檢索項權重”。例如，檢索項“電腦”的位置資訊為“文檔D中第n段第m句第w詞”。這樣，在資訊檢索時，使用者可以要求在查詢中，檢索項T1和檢索項T2位於同一語句或同一段落中。檢索項索引的建立準則是要易於文檔資訊的更新處理。
表1：　典型倒排檢索項列表
    TERM1 DOCi, WTi1; DOCj, WTj1; _ ;DOCm, WTm1
    TERM2 DOCi, WTi2; DOCk, WTk2; _ ;DOCn, WTn2
    .
    .
    .
    TERMs DOCj, WTjs; DOCm, WTms; _ ;DOCp, WTps
查詢擴充處理
　　資訊檢索評價的標準是資訊檢索的精度和召回率。資訊檢索的精度為檢索結果中相關資訊文檔數與查詢結果總數之比。資訊檢索的召回率為實際檢索出的相關資訊文檔數與資訊庫中總的相關資訊文檔數之比。
　　為了提高資訊檢索的召回率，需要進行查詢擴充處理。這種處理根據同義字詞典和語義蘊涵詞典擴充查詢檢索項。同義字擴充，如“電腦”和“電腦”指同一概念；因而查詢“電腦”同時也要查詢“電腦”，反之亦然。主題蘊涵擴充是指不但要查詢檢索詞，而且還要查詢其中所包含的子概念。比如，主題詞“藝術”包括“電影”、“舞蹈”、“繪畫”等等。“電影”又包括“故事片”、“記錄片”等。因此，查詢“藝術”當然包括“電影”、“舞蹈”、“繪畫”以及其下的子概念。
　　提高資訊檢索的精度，可利用向量空間模型實行相關查詢反饋處理。即使用者從初次查詢的結果中，選擇內容重要的文檔或文檔片斷，讓搜尋引擎依據所選文檔的特徵，重新進行查詢，從而提高查詢精度。
資訊分類和摘要
　　為了方便使用者從查詢結果中選擇所需資訊，搜尋引擎可將提供給使用者的文檔資訊按照文檔內容進行分類，並為每一篇文檔產生簡短摘要。
　　搜尋引擎根據文本檢索項的統計特徵，對查詢結果進行分類和摘要。例如，使用者查詢檢索項“電腦”，相應的結果分類也許為“分類1”：“網路”、“系統”、“路由器”等；“分類2”：“市場”、“產品”、“銷售”等；以及其它分類。分類的目的是便於使用者找到相關資訊。
智能代理
　　搜尋引擎除了被動搜尋外，也可利用智能代理技術進行主動資訊檢索。資訊檢索系統智能使用者代理程式，可根據使用者事先定義的資訊檢索要求，在網路上即時監視資訊源，如指定Web頁面的更新、網路新聞、電子郵件、資料庫資訊變化等。並將使用者所需的資訊，通過電子郵件或其它方式，主動提供給使用者。使用者無須反覆搜尋所需資訊，這樣將大大減少使用者檢索資訊的時間。
　　目前，商用資訊檢索系統主要以布爾模糊邏輯加向量空間模型為主，輔以部分自然語言處理。自然語言處理，特別是自然語言理解在資訊檢索中應用，將大大提高資訊檢索的精度和相關性。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

面向機器翻譯的全文檢索索引系統

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support