以醫院電子病歷為核心的臨床數據記錄了病人的疾病、診斷和治療信息。挖掘此類數據,可以輔助醫生了解人口學信息、臨床癥狀、治療方法和療效之間的量化關系,幫助病人選擇更好的治療方案,進而提升醫療服務質量,降低醫療成本。
然而,在臨床中,大量的醫療文書是以文本形式存在。同時,醫生錄入缺乏語義規范,同一診斷與治療方案,不同醫生的錄入結果會不同。因此,在挖掘之前,需要對數據進行結構化與規范化。
在這個過程中,醫療健康知識圖譜是不可或缺的一部分。另外,病歷數據處理和使用過程中,通過病歷數據與健康圖譜的關聯挖掘,可以獲得更為隱含的、深刻的信息。為處理方便,整體用知識圖譜表示與關聯,會更為方便有效。
一、知識圖譜用于醫療文本的結構化與規范化
在臨床中,大量的醫療文書是以文本形式存在。電子病歷的文本包含了病人病史、家族史、癥狀,以及醫生根據癥狀、理化指標等基礎數據做出的診斷等描述。更重要的,臨床文本中記錄了醫生的判斷依據,以及對各種診療行為的效果跟蹤。如果說各種明細記錄是結果跟蹤,那么文本數據就是過程跟蹤的基礎。而這些重要的信息保存在非結構化信息中,不能被計算機所理解和處理。
為使得文本更好的結構化,需要用到實體識別、關系抽取技術,根據技術的不同,也會用到一些基礎的文本分詞或是詞法分析等技術,在這個過程中,可以手工標注語料,用各種監督學習方法,傳統的有 CRF,新的方法可以基于 RNN 網絡;也可以基于字典方法,利用癥狀、檢查、藥品與疾病名稱的知識庫。為了免除語料標注的麻煩,筆者基于癥狀知識庫以及癥狀語法結構做了遠程標注,再進行 CRF 建模,取得了比較好的效果。
然而,僅僅是結構化也是不夠的,因為醫療術語存在大量的同義詞或上下位詞,比如說,同一癥狀具有多種多樣的文本表達形式,如“期前收縮”、“過早搏動”與“早搏”是同義詞。再比如說,一個癥狀常常被不同的詞語修飾以表達略有不同的語義含義,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位詞。
再以疾病為例,目前醫學診斷大量采用了 ICD 編碼,但 ICD 編碼結構并不包含完整的上下位關系。以中文 ICD 編碼[1] 中的“特指急性風濕性心臟病”為例,它的上位詞有“特指風濕性心臟病”和“急性風濕性心臟病”,這兩種疾病擁有共同的上位詞“風濕性心臟病”,“風濕性心臟病”又有上位詞“心臟病”。而這幾種疾病之間的關系和層次結構并沒有在 ICD 10 中通過編碼結構表示出來,只是通過編碼的首字母“I”將它們劃分到了循環系統類疾病中。如過我們需要希望找到某一類患者,無法通過一個ICD編碼獲得,而是需要人工的選擇多個 ICD 編碼。從另一個角度而言,對于同一個疾病,醫生在編寫 ICD 編碼時,可粗可細,也會給病歷的自動處理帶來困難。
為解決上述問題,首先需要現有的編碼系統有對應的圖譜方式描述,至少具有上下位和同義詞關系,進一步的,也可以通過電子病歷中的文本診斷,利用圖譜,對電子病歷數據進行自動編碼。
二、圖譜表示用于關聯知識與數據
電子病歷中存儲著大量的數據,但僅在病歷數據內部做挖掘及分析是有局限性的,難以發現數據中蘊含的深層次的價值。將病歷數據以 RDF 格式發布,形成病歷圖譜,并與開放知識庫(如中文癥狀知識庫)相關聯,將對疾病預測、用藥推薦和相似病人發現等打下良好的基礎。
比如說,在電子病歷用藥時,寫的會是藥品名稱,但是,在分析的時候,通常醫生會用大類名稱,如 ACEI 類藥物,或是 ARB 類藥物等等。這時候,病歷圖譜需要和藥品圖譜關聯,就可以更為方便地做各種臨床分析,再比如說,Topfed 項目將 TCGA 項目中發布的癌癥病人的基因數據進行 RDF 化,并與其它開放數據集關聯,進而做了一些有趣的分析,獲得了 ISWC2013 的 Semantic Web Challenge 大獎。例如輸入一個病人的特征,找到庫中與他類似的病人群,根據相似性找到相應的藥物方案,如果病人對此藥物有抗藥性,可以尋找藥品庫的同類藥物。
三、總結
雖然英文已經有了很多開放鏈接生物醫藥數據集合,但中文比較缺乏,而中文的電子病歷處理又需要中文知識圖譜。針對上述問題,OMAHA聯合中文開放知識圖譜(Open KG),系統性的梳理和匯集知識圖譜相關的技術和工具,并向整個社區開放相關的技術資源,一起促進醫學知識圖譜數據的開放與互聯。
更多資料歡迎大家移步OMAHA聯盟官網知識服務平臺查看。
如果你也對促進醫療數據開放、醫學信息標準化、行業研究和生態建立感興趣,歡迎進入OMAHA基金會官網了解更多。
OMAHA聯盟官網鏈接:http://www.omaha.org.cn/portal.php
OMAHA基金會官網鏈接:http://foundation.omaha.org.cn
參考資料:
[1]疾病和有關健康問題的國際統計分類第十次修訂本(ICD-10)[M].人民衛生出版社.1996.
[2]Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47
原標題:中文醫療健康知識圖譜在臨床電子病歷挖掘中的應用探討
Copyright ? 2004-2025 健康一線-健康視頻網(vodjk.com)All rights reserved.