標籤:類型 探討 關聯規則 其他 pos 資料 因此 關聯規則挖掘 感染
近年來醫學資料採礦發展迅速, 然而目前醫 療資料結構化處於起步階段, 更多的醫學資料仍然 以自然語言文本形式出現, 這些醫學文本資料中的 知識是不同地區、 不同時代人們智慧的結晶, 展現 的是大量、 未整理的文獻資料以及診療記錄, 而這一點在中醫學中尤為突出。
自然人的學習能力有限, 因此學者們嘗試通過自然語言處理 (Natural Language Processing,NLP) 輔助完成匯總中醫知識的過程, 將知識提煉出來, 提取其中有用的診療資訊, 最終形成知識本體或者 知識網路, 從而為後續的各種文本挖掘任務提供標 准和便利。NLP屬於人工智慧的子領域, 其核心目 的是使得電腦能夠理解和產生人類的自然語言, 任務主要包括資訊抽取、 機器翻譯、 情感分析、 摘要提取等, 所用到的技術包括命名體識別、 語義消 歧、 指代消解、 詞性標註、 結構分析等。 大量醫學 文本資料中含有的病史、 診斷、 治療方法、 藥物等 名詞, 給NLP的應用提供了可能性。 利用 NLP技術 將隱藏在文本中的知識挖掘出來, 對醫學的發展具有重要意義, 目前已有醫學和生物學領域的相關研 究[1] 。 同時 20世紀80~90年代, 一些醫學本體資料庫逐漸建立起來, 如一體化醫學資訊系統、 臨床醫學系統術語等, 使得利用NLP 挖掘醫學知識的資料和工具更為充足。
1 關聯規則挖掘
2.1.1 概述 關聯規則是資料採礦的常用方法,
核心在於分析類似 “某些事情的發生引出另外一些 事件的發生” 的規則, 包括簡單關聯、 時序關聯、 數量關聯、 因果關聯等, 核心演算法是以支援度和置 信度作為判斷標準, 確定是否存在關聯關係。 著名 的關聯演算法有Apriori演算法及其改進演算法FP-growth , 通過計算出頻繁項集來表示規則前件和後 件中的事項明顯同時出現。
2.1.2 關聯規則在中醫學中的應用 主要是方劑
的關聯性挖掘, 如任廷革等[2] 嘗試構建了中藥方劑 資料庫, 收集了近 2000年來約 10萬個方劑資料, 共 100萬餘條資料記錄, 而且給出了從中挖掘關聯規則的方法[3] 。 王大阜[4]使用 Apriori演算法對所收集 的方劑資料庫進行關聯分析, 挖掘出了當歸 ==> 生地 (支援度 7.86%, 信賴度 78.57%)、 白蘚皮
==>土茯苓 (支援度7.14%, 信賴度83.33%) 等關聯規則, 將方劑中常用的搭配藥物分析出來, 對中藥 的 配 方循 證 起到 指 導 作用。 朱 立 成[5] 對445例名醫醫案進行關聯分析, 挖掘出哮喘醫案的 病因、 病位、 證候與四診資訊的關聯關係, 病因、 病位、 證候、 四診資訊與用藥的關聯關係, 以及 中藥之間的關聯關係。
2.1.3 局限性
關聯分析挖掘出來的知識有限,僅僅考慮到了並發的情況, 一般局限於某個術語 與其他某個或某些術語共現頻次較高類似的結果。 大部分的應用建立在擷取結構化資料的前提條件下, 更多展現的是對結構化資料分析的能力。
2.2 群集
2.2.1 概述 中醫有陰陽五行學說, 人體有五髒 六腑之分, 均彰顯出可分類的特點, 群集應用 於中醫學中應當與中醫自身的性質相契合。 學者們 利用群集方法對中醫文本挖掘進行研究, 具體 為癥狀分類和藥物評價。
2.2.2 對癥狀的聚類 癥狀分類的語料多來自中 醫的診斷手稿, 常見於從某一種特殊的疾病入手, 利用診斷手稿對癥狀聚類, 得出該疾病的表型特 點。 麻曉慧[6] 利用有關膽道感染、 膽石症病案共 739 例, 將 92 項臨床表型聚類, 得到膽病癥狀的表 現分類特點, 歸納總結了膽病的癥狀群。 袁世宏 等[7] 使用群集方法尋找腎虛癥狀的自然類群, 聚類的結果與中醫理論的描述基本一致, 為中醫的 科學性提供了很好的佐證。 除癥狀之外, 何裕民 等[8] 使用模糊聚類, 得出體質的類型分類 (強壯 質、 虛弱質、 失調質) 及若干亞型。
2.2.3 藥物評價聚類 藥物評價方向主要是利用 聚類方法將類似性狀或相同功效的藥物聚在一起, 應用中醫藥理論總結知識。 何前鋒等[9] 對中藥按照 功效聚類, 定義藥物之間的相似性, 對中藥分類整 理做出一定的貢獻。
2.2.4 局限性 相比於資訊抽取, 群集偏向 整體性質, 從宏觀的角度對疾病、 癥狀、 藥物做出 分類整理, 只能得到概括性的評價, 無法挖掘出具 體的診療方法資訊。
2.3 資訊抽取
2.3.1 概述 中醫文獻大都是以自然語言的方式 描述的, 而且紛繁複雜, 病歷中蘊含著癥狀、 診斷資訊, 醫書中蘊含方劑、 病理資訊, 藥物典籍 中蘊含組分、 製作方法資訊等, 如果採用人工方法 提取這些資訊, 耗費的人力、 物力是難以估量的。 然而, 由於中醫術語名詞都包含在描述語言中, 而 且文獻描述語言簡練、 邏輯簡單, 因此可以考慮使 用資訊抽取演算法來自動擷取結構化資訊。
2.3.2 隱彌科夫模型為主的資訊抽取 近年來, 隱馬 爾 科 夫 模 型 (Hidden Markov Model, HMM) 在資訊抽取領域中被廣泛應用。 顧錚等[10] 利用 HMM 對中醫古籍進行了資訊抽取, 將癥狀、 病 因、 脈象和方劑看作模型的 4 種狀態, 然後利用 具名實體識別結合人工標註的方法來從文獻中提 取相應的名詞, 最終計算出 HMM 相關參數, 達到 了資訊抽取的目的。 莊力[11] 以中醫臨床診療資料 面向普通公眾便捷資訊服務為目標, 設計並實現 了中醫臨床診療垂直搜尋系統 TCMVSE, 可以完 成 Web 資訊搜集、 資訊抽取、 資訊索引與檢索等 功能。
2.3.3 不足 資訊抽取需要人工定義抽取的模 板, 而且經常面臨資料缺失的情況, 得到的結構化 資料也屬於缺失資料, 給進一步分析帶來一定的困 難。 但是作為將非結構化資訊轉化為結構化資訊的 最小損失手段之一, 資訊抽取在中醫 NLP 研究中具 有非常重要的地位。
2.4 機器學習
醫學中機器學習應用比較廣泛的是針對結構 化資料的分類方法, 基於自然語言處理的方向相 對較少, 機器學習方法應用於文獻的分類較為廣 泛, 與文本知識挖掘為不同的研究方向, 故不做 贅述。 中醫方面, 一些學者嘗試使用機器學習技 術就某個具體問題提出解決思路, 取得一定的成 效。 孫燕[12] 嘗試利用支援向量機及相關改進演算法 對 《傷寒論》 進行方證分析和量化研究, 針對特 定藥材量化分析並且應用支援向量機對 《傷寒論》 按照八 法 訓 練 分 類, 給 出 了 一 些 結 果。 晏 峻 峰 等[13] 利用粗糙集理論對中醫診斷證素推斷規則的 擷取、 癥狀辨證素的量表制定等證素辨證研究的 關鍵問題進行了研究, 主要對癥狀的診斷和互相 之間的關係做出一些系統性探討。 徐蕾[14] 提出將決策樹方法應用於中醫證候學研究的思路, 說明 決策樹方法在中醫診斷辨證中的應用前景。 盧延 鑫等[15] 通過詞性標註規則提取名詞並應用支援向 量機對其分類, 判定是否為致病因素並與流行病 學專家給出的評測結果對比, 得到了最高 80%的 準確率。
2.5 具名實體識別
生物具名實體識別,就是從生物醫學文本中識別出指定類型的名稱,比如基因、蛋白質、核糖核酸、脫氧核糖核酸、疾病、細胞、藥物的名稱等。目前,使用比較多的生物具名實體識別的研究方法主要有以下幾種:基於規則的方法[16]、詞典匹配的方法[17]以及機器學習的方法,如支援向量機(SVM)[18]、最大熵[19]、條件隨機場 (CRF)[20]以及隱馬爾科夫(HMM)[21]等。
[1]王浩暢,趙鐵軍 生物醫學文本挖掘技術的研究與進展[期刊論文]-中文資訊學報 2008(03)
[2]任廷革,劉曉峰,高劍波,楊斌,孔廣黔,張帆,王欣 "中醫藥基礎資料庫系統"介紹[期刊論文]-中國中醫藥資訊雜誌
2001(11)
[3]任廷革,劉曉峰,張帆,孫燕,湯爾群 計算技術對中醫方劑知識的挖掘[期刊論文]-科技導報 2010(15)
[4]王大阜 關聯規則在中醫方劑資料集市中的應用[期刊論文]-貴州大學學報(自然科學版) 2006(03)
5.朱立成,林色奇,薛漢榮,查青林,張啟明,呂愛平 名中醫哮喘醫案445例關聯規則分析[期刊論文]-江西中醫學院學報
2007(05)
6.麻曉慧,王泓午,何裕民 膽病癥狀學聚類研究[期刊論文]-中國中醫基礎醫學雜誌 2000(12)
7.袁世宏,王米渠,王天芳,嚴石林,畢煥英,師建梅,趙燕 群集對腎虛癥狀的探索性研究[期刊論文]-北京中醫藥大
學學報 2006(04)
8.何裕民,楚更武 體質的聚類研究[期刊論文]-中國中醫基礎醫學雜誌 1996(05)
9.何前鋒,周雪忠,周忠眉,崔蒙,吳朝暉 基於中藥功效的群集[期刊論文]-中國中醫藥資訊雜誌 2004(06)
10.顧錚,顧平 資訊抽取技術在中醫研究中的應用[期刊論文]-醫學資訊 2007(01)
11.莊力 中醫臨床診療垂直搜尋系統研究[學位論文] 2009
12.孫燕.基於機器學習技術的 《傷寒論》 方證分析方法研
13.晏峻峰,朱文鋒 粗糙集理論在中醫證素辨證研究中的應用[期刊論文]-中國中醫基礎醫學雜誌 2006(02)
14.徐蕾,賀佳,孟虹,賀憲民,範思昌 決策樹技術及其在醫學中的應用[期刊論文]-數理醫藥學雜誌 2004(02)
15.盧延鑫,姚旭峰,王松旺 利用自然語言處理技術提取致病因素資訊研究[期刊論文]-醫學資訊學雜誌 2013(03)
16.Fukuda K, Tamura A, Tsunoda T, et al. Toward information extraction: identifying protein names from biological papers.[C]// Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. Pac Symp Biocomput, 1998:707-718.
17.Tuason O, Chen L, Liu H, et al. Biological nomenclatures: a source of lexical knowledge and ambiguity.[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2004:238.
18.Bakir G, Hofmann T, Sch?lkopf B, et al. Support Vector Machine Learning for Interdependent and Structured Output Spaces[C]// International Conference on Machine Learning. ACM, 2004:104.
19.Lin Y F, Tsai T H, Chou W C, et al. A maximum entropy approach to biomedical named entity recognition[C]// International Conference on Data Mining in Bioinformatics. Springer-Verlag, 2004:56-61.
20.Su J, Su J. Named entity recognition using an HMM-based chunk tagger[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002:473-480.
21.Li Y, Lin H, Yang Z. Incorporating rich background knowledge for gene named entity classification and recognition[J]. Bmc Bioinformatics, 2009, 10(1):1-15.
柴華, 路海明, 劉清晨. 中醫自然語言處理研究方法綜述[J]. 醫學資訊學雜誌, 2015, 36(10):58-63.
自然語言處理在醫學領域的應用