徐美蘭:深度運用驅動的醫(yī)學常識圖譜建立
導讀:數研院近年來在知識圖譜建設方面取得了豐碩的成果。今天分享我們在地圖建設過程中的經驗和體會,歡迎大家討論交流。這次分享的題目是:深度應用驅動的醫(yī)學知識圖譜構建。主要內容包括四個方面:國內外醫(yī)學知識地圖發(fā)展、醫(yī)學知識地圖領域特點及應用需求;數字研究院醫(yī)學知識圖譜構建:模型建立,七巧板本體術語集構建,以及“慧智”圖譜構建,醫(yī)學知識圖譜應用案例。
01
國內外醫(yī)學知識地圖的發(fā)展
1.知識地圖概念
知識圖譜的廣義概念:作為一個技術體系,是指大數據知識工程的一系列代表性技術。
狹義的知識地圖概念:知識地圖作為一種知識表示形式,是一個大規(guī)模的語義網絡,包含實體、概念以及它們之間的各種語義關系。下圖中的二甲雙胍知識圖譜片段。
2.國外醫(yī)學知識圖譜
UMLS:美國國家醫(yī)學圖書館(National 醫(yī)學 Library)自1986年以來研發(fā)的集成醫(yī)學語言系統,包括超級詞匯、語義網絡、專業(yè)詞典和詞匯處理工具。其規(guī)模:語義網絡包含133種語義類型和54種語義關系。超級詞庫包含超過300萬個概念,超過1300萬個概念名稱。
SNOMED CT:2002年1月,SnO med首次發(fā)布。由SNOMED RT和CTV3兩個醫(yī)學術語合并而成。SNOMED CT國際版每年1月和7月更新一次。SNOMED CT的核心結構是概念、描述(術語)和關系。其規(guī)模:目前包含19個語義類型,50多個語義關系,35萬個概念,120萬個描述(術語),110萬個關系。
3.國內醫(yī)學知識圖譜
CUMLS:中國醫(yī)學科學院醫(yī)學信息研究所基于UMLS開發(fā)的中文集成醫(yī)學語言系統,包括醫(yī)學詞匯、語義網、構建工具和平臺。其規(guī)模:共收錄3萬多個0 醫(yī)學關鍵詞,3萬個導入詞,10萬個0 醫(yī)學術語,30萬個0 醫(yī)學詞匯材料。
醫(yī)學知識服務體系:由中國醫(yī)學科學院醫(yī)學信息研究所建設,通過對資源的深度挖掘和關聯分析,構建了知識圖譜、知識情境分析等特色知識服務和應用。其規(guī)模:已發(fā)布疾病與藥物知識圖譜,其中疾病涵蓋心腦血管疾病、呼吸系統疾病、免疫系統疾病、消化系統疾病、腫瘤等。
中醫(yī)知識圖譜:中國中醫(yī)科學院中醫(yī)信息研究所基于中醫(yī)語言系統(TCMLS)構建了中醫(yī)知識圖譜。其類型包括:基于中醫(yī)語言體系的知識圖譜、中醫(yī)美容知識圖譜、中醫(yī)養(yǎng)生知識圖譜、中國臨床知識圖譜。
OpenKG:由中國中文信息學會發(fā)起的中文領域開放式知識圖譜社區(qū)項目。其主要工作內容包括:OpenKG.CN(開放地圖資源庫)、cnSchema(中文開放地圖模式)、Openbae(開放知識地圖眾包平臺)。
02
醫(yī)學知識地圖的領域特征和應用需求
1.醫(yī)學知識的特性
醫(yī)學術語多樣性:不同的知識源使用不同的術語來表達同一個概念。比如糖尿病也可以叫糖尿病、糖尿病、DM等。
精度高:醫(yī)學知識專業(yè)化程度高,醫(yī)學應用場景容錯率低,所以醫(yī)學知識圖譜要求精度高。
復雜度高:醫(yī)學是一門總結經驗的學問。醫(yī)學概念的內涵往往是豐富的,有些醫(yī)學知識是復雜的,很難用簡單的三元組來表達。
2.醫(yī)學知識圖譜應用場景
醫(yī)學知識地圖不同的應用場景有不同的需求,需要最大化的滿足來提高地圖的適用性。如下所示:
3.定制解決方案
為了滿足行業(yè)深度應用的需求,在醫(yī)學知識圖譜的構建中要引入更多的定制化解決方案,如下圖:
03
數學研究所醫(yī)學知識圖譜的構建
1.模型機構
醫(yī)學領域的知識圖譜專業(yè)性很強,所以業(yè)界通常采用自頂向下的方式,先構建圖式,再提取知識。
研究院的醫(yī)學知識圖譜模式主要參考了Schema.org、UMLS語義網、cnSchema等。相關數據涵蓋四個主要領域:疾病、藥物、外科手術和檢查。當然,在知識圖譜構建過程中,我們會根據提取和應用的實際情況,不斷完善和優(yōu)化圖式。數研院醫(yī)學知識圖譜于2019年8月首次發(fā)布了該圖式。目前包含72種語義類型,493種語義關系。Schema的查詢和下載地址為:http://schema.omaha.org.cn/class/Thing#.
用Schema指導構建Tangram 醫(yī)學本體術語集和匯智醫(yī)學知識圖譜,完善醫(yī)學知識表達體系。我們之所以在一個模型的指導下建立兩個知識庫,是為了解決不同的問題。Tangram用本體解決邏輯定義(即內涵定義)和層次關系相關的關系。“匯智”用語義網解決可能和經驗關系,沒有層級關系。詳情請見下圖:
2.七巧板本體術語集的構建。
從整體上構建本體術語集有六個步驟,分別是:
步驟1:確定領域類別。目前正在嘗試構建醫(yī)學知識圖譜,滿足臨床診療需求。主要內容:疾病,癥狀和體征,外科手術,檢查,藥物,人體形態(tài)和結構,基因,醫(yī)療設備。
第二步:選擇合適的知識來源。充分包括權威的知識來源,如當前的行業(yè)標準、教科書、指南等。,同時補充臨床病歷、互聯網診療中的術語等。
第三步:整理出重要的術語。整理領域內的重要術語,領域專家對語義實體進行規(guī)范化,完成概念化。相關流程如下:
第四步:建立關系。Tangram 醫(yī)學本體術語集的核心構建包括概念、術語、關系和映射。如下圖所示:
充分保留知識源中已有的層次關系,通過機器推理和人工添加進行優(yōu)化。挖掘知識源中的屬性關系,通過機器推薦和人工添加進行補充。制定明確的映射規(guī)則,通過機器推薦和專家評審建立映射。
第五步:存儲和瀏覽。關系數據庫分為概念表、術語表、關系表、映射表進行存儲,保留歷史痕跡。術語瀏覽器可以實現術語集構建的快速搜索,并可以按需實現子集定制。參見如下關系操作:
步驟6:平臺和工具支持。自主開發(fā)的知識庫維護平臺(CoWork),內嵌術語集開發(fā)規(guī)則,支持多人協作。七巧板在CO中的功能如下: