本次Tutorial主要包括以下三方面內容:
行業知識圖譜概述,包括行業圖譜簡介,行業知識圖譜的應用及挑戰,以及行業知識圖譜生命週期管理。
行業知識圖譜關鍵技術,包括行業知識圖譜生命週期中各過程的相關技術、現有可用的工具,以及各過程中的最佳實務及相關組件。
行業知識圖譜應用實戰,以金融證券行業應用為例,示範知識圖譜從知識建模、知識抽取到行業應用的全過程。
目標聽眾與我們公眾號的粉絲群體一致:
知識圖譜學習者,對知識圖譜在行業應用感興趣的技術人員。
各行業應用中想引入知識圖譜相關技術的知識及資料管理人員,尤其是有行業知識庫構建及上層問答搜尋等需求的。
希望瞭解知識圖譜如何在行業中應用的管理決策者。
這篇文章通讀完大致需要60分鐘時間,不過這些時間都是值得的,因為你將可以:
瞭解行業知識圖譜相關概念及其在行業中的現有應用,理解其給行業應用帶來的價值。
理解知識圖譜在行業中應用的相關挑戰與生命週期,理解生命週期各過程的基本目標及相關組件。
對行業知識圖譜應用相關的技術進行熟悉,瞭解有哪些現有的工具可以使用和相關注意事項、以及一些行業應用的最佳實務。
我們假定閱讀本Tutorial的聽眾具備如下基礎知識:
RDF:資源描述架構
OWL: RDF Schema 的擴充
SPARQL:RDF查詢語言
第一節 行業知識圖譜簡介
“Things not strings”
眾所周知,知識圖譜是Google於2012年提出,用來最佳化搜尋結果。
經過多年的發展,知識圖譜在人工智慧的許多行業都擁有了成熟落地的應用。
按照知識圖譜的覆蓋面來看,主要分為通用知識圖譜與行業知識圖譜。
1.1 通用知識圖譜
Google所提出的知識圖譜即為通用知識圖譜,他是面向全領域的。通用知識圖譜主要應用於面向互連網的搜尋、推薦、問答等業務情境。由於它強調的是廣度,因而更多的是強調實體,很難產生完整的全域性本體層的統一管理。
通用知識圖譜一些常見的項目如下:
1.2 行業知識圖譜
號稱“矽谷最神秘科技公司”的Palantir是行業知識圖譜領域的典型代表,其軟體允許客戶對大量的敏感性資料進行語義關聯分析,以防止欺詐,確保資料安全等。
行業知識圖譜相對通用知識圖譜擁有如下特性:
面向特定領域的知識圖譜。
使用者目標對象需要考慮行業中各種層級的人員,不同人員對應的操作和業務情境不同,因而需要一定的深度與完備性。
行業知識圖譜對準確度要求非常高,通常用於輔助各種複雜的分析應用或決策支援。
有嚴格與豐富的資料模式,行業知識圖譜中的實體通常屬性比較多且具有行業意義。
行業資料的特點包括:
資料來源多:內部資料、互連網資料、第三方資料。
資料類型多:包含結構化、半結構化、非結構化資料,且後兩者越來越多。