泥沙龍筆記:從 sparse data 再論parsing乃是NLP應用的核武器

來源:互聯網
上載者:User

標籤:

泥沙龍筆記:從 sparse data 再論parsing乃是NLP應用的核武器

白:parsing準確率,如果把所有未盡事宜都丟給語義語用,有點自說自話的味道,終端使用者無感。

 

Wei:使用者感不感沒大關係,關鍵是它節省了語用層面的開發。

沒有parsing,抽取是在表層進行,存在的困境是 sparse data 和 長尾問題。

表層的東西學不勝學,而有了 deep parsing  的支援,抽取規則可以以一當百,至少從規則量上看,這絕不是誇張。這是其一。

 

其二,deep parsing 使得領域移植性增強太多。

沒有 parsing 抽取任務變了,一切須推到重來。

對於規則體系,有了 deep parsing,抽取任務隨領域變了就不需要那麼大的返工。parsing 吃掉了約 90% 的重複勞動(語言知識和結構本質上是跨領域的),返工的部分不到 10%。

parsing 意義之重大 正在於此。

 

對於機器學習,NLP應用的知識瓶頸在 (1)sparse data;(2) 任務變,訓練庫必須重新標註:前一個任務的標註對後續任務基本沒有可重複使用的可能,因為標註是在語用層進行的。

如果有 parsing support,理論上講,機器學習可以更好地克服 sparse data,但實踐上,到目前為止,結合 structure features 和 keywords 在機器學習中一鍋煮,目前還處於探索研究階段,沒有多少成熟的案例。我們以前嘗試過這種探索,似乎parsing的參與有推進系統品質的潛力,但是還是很難纏,模型複雜了,features 混雜了,協調好不是一件容易的事兒。

 

事實上,規則體系做抽取,沒有 parsing 差不多有寸步難行的感覺。因為人的大腦要在語言表層寫規則,數量太大,寫不過來。只有機器學習,才可以繞開parsing去學那數量巨大的抽取規則或模型,但前提是有海量標註的訓練集。否則仍然不免 sparse data 的困擾。

 

sparse data 遠遠不是單指表層的出現頻率低的 ngrams (習慣用法、成語等)的累積,那種 sparse data 相對單純,可以當做專家詞典一樣一條一條編寫,愚公終可移山。如果培訓資料量巨大,譬如機器翻譯,那麼這類 sparse data 對於機器學習也不是難題。當然大多數情境,培訓資料量始終大不起來,這個知識瓶頸 is killing ML。

 

更重要的 sparse data 是由於缺乏結構造成的,這種 sparse data 沒有parsing就幾乎無計可施。表層的千變萬化,一般遵循一個常態分佈,長尾問題在結構化之前是沒有辦法有效捕捉的。而表層的變化被 parsing 規整了以後,表層的 sparse 現象就不再 sparse,在結構層面,sparse patterns 被 normalize 了。這是 parsing 之所以可以稱為NLP應用之核武器的根本。

 

沒有 parsing,結構性 sparse data 就玩不轉。

 

喬姆斯基縱有一萬個不是,一千個誤導,但他老人家提出的表層結構和深層結構的思想是不朽的。parsing 就是吃掉各種表層結構,產生一個邏輯化的深層結構。在這種深層結構上做抽取或其他語義語用方面的應用型工作,事半功倍。

 

Deep parsing consumes variations of surface patterns, that‘s why it is as powerful as nuclear bombs in NLP。

 

別說自然語言的語句的表層多樣化,咱們就是看一些簡單的語言子任務,譬如 data entity 的自動標註任務,就可以知道表層的 sparse data 會多麼麻煩:如 “時間”的表達法,再如“郵件地址”的表達法,等等。這些可以用Regex parse 涵蓋的現象,如果在表層去用 ngram 學習,那個長尾問題就是災難。

 

自然語言文句之需要 parsing,與標註 data entity,Regex優於 ngram 學習, 其道理是相通的。

 

 

【相關】

泥沙龍筆記:parsing 是引擎的核武器,再論NLP與搜尋

 



本文引用地址:http://blog.sciencenet.cn/blog-362400-908894.html  此文來自科學網李維部落格,轉載請註明出處。 

泥沙龍筆記:從 sparse data 再論parsing乃是NLP應用的核武器

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.