Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446.
連結:http://www.aclweb.org/anthology/P/P17/P17-1132.pdf
這篇論文是今年發表在 ACL 的一篇文章,來自 CMU 的工作,提出通過更好地利用外部知識庫的方法解決機器閱讀問題。由於傳統方法中用離散特徵表示知識庫的知識存在了特徵產生效果差而且特徵工程偏特定任務的缺點,本文選擇用連續向量表示方法來表示知識庫。傳統神經網路端到端模型使得大部分背景知識被忽略,論文基於 BiLSTM 網路提出擴充網路 KBLSTM,結合 attention 機制在做任務時有效地融合知識庫中的知識。
論文以回答要不要加入 background knowledge,以及加入哪一些資訊兩部分內容為導向,並藉助以下兩個例子說明兩部分內容的重要性。“Maigretleft viewers in tears.”利用背景知識和上下文我們可以知道Maigret指一個電視節目,“Santiago is charged withmurder.”如果過分依賴知識庫就會錯誤地把它看成一個城市,所以根據上下文判斷知識庫哪些知識是相關的也很重要。
KBLSTM(Knowledge-aware Bidirectional LSTMs)有三個要點:
(1)檢索和當前詞相關的概念集合V(x_t)
(2)attention 動態建模語義相關性
(3)sentinel vector S_t 決定要不要加入 background knowledge。
主要流程分兩條線:
(1)當考慮背景知識的時候就把 knowledge module 考慮進去
(2)如果找不到和當前詞相關的概念則設定 m_t 為 0,直接把 LSTM 的 hidden state vector 作為最後的輸出。
後者簡單直接,這裡說明前者的結構。knowledge module 模組把 S_t、h_t、V(x_t) 作為輸入,得到每個候選知識庫概念相對於 h_t 的權重 α_t,由 S_t 和 h_t 得到 β_t 作為 S_t 的權重,最後加權求和得到 m_t 和 h_t 共同作為輸入求最後輸出,這裡通過找相關概念和相關權重決定加入知識庫的哪些知識。
論文用 WordNet 和 NELL 知識庫,在 ACE2005 和 OntoNotes 資料集上做了實體抽取和事件抽取任務。兩者的效果相對於以前的模型都有提升,且同時使用兩個知識庫比任選其一的效果要好。
筆記整理: 李娟,浙江大學在讀博士,研究方向為知識圖譜,常識推理,知識庫分布式表示和學習。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需註明來源“OpenKG.CN”、作者及原文連結。如需修改標題,請註明原標題。
點擊閱讀原文,進入 OpenKG 部落格。