更新時間:2024-06-26 20:19:13作者:佚名
相關化合物的數字化服務正在逐步推進,3D影像、遠程醫療、可穿戴醫療檢測等新的服務模式的研究使得數據與醫學發展緊密相關,并簡要概括了其歷史發展特點、健康數據結構的多變性、價值密度的多維性,以及我國疾病全史的研究。 但我國醫療數據的應用還不夠有效。在產業發展過程中,以及產業發展過程與數據結果之間的聯系,是目前需要探索的。 本研究嘗試設計并實現基于大數據的醫療健康信息服務平臺,提升醫療健康服務水平,相關研究正在嘗試大數據在醫療健康領域的應用過程。 關鍵詞 大數據,健康 1.引言 隨著現代社會文明和城市的快速發展健康大數據管理與服務,城市流動人口日益增多,城市工作和生活壓力不斷增大,特別是老齡化進程不斷加快,危害公民健康的環境和社會因素不斷涌現,使得居民健康醫療問題日益突出,醫療費用不斷上升,給個人和社會造成了沉重的經濟負擔。
因此,世界各國都在想方設法提高國民健康水平,降低醫療費用,對相關新技術、新方法研發的投入不斷加大,與醫療健康行業直接相關的行業正經歷快速發展時期,3D影像、遠程醫療、可穿戴醫療檢測等新型醫療健康服務模式不斷涌現,海量異構的醫療健康數據迅速積累,醫療健康行業本文得到上海市科委2013年度“科技創新行動計劃”項目:醫療健康大數據服務平臺研究與示范應用()、2013年度上海市科技人才計劃項目:智慧城市領域大數據分析關鍵技術研究與應用(13XD14243.o)資助。童慶(1977-),男,博士,高級工程師。主要研究方向為大數據管理與應用、智能計算、智能計算與智能計算。com; 張靜怡(1974-),女,博士,高級工程師,主要研究方向為數據挖掘、云計算技術;余攀(1987-),女,碩士,主要研究方向為軟件工程、數據分析;肖發華(1969-),女,高級工程師,主要研究方向為軟件工程、知識管理。?449?
新的“數據浪潮”即將來臨[1]。隨著數字化時代的到來,信息技術也正經歷快速發展時期,大數據、云計算、物聯網等新興技術的出現支撐著各行業業務執行能力和社會生產能力的提升[2]。其中,大數據技術從數據資產管理能力的角度,力求解決從龐大的數據資源中快速獲取高價值信息的問題。醫療健康行業作為與居民生存息息相關的典型領域,也成為大數據應用落地的重要場景[3]。美國哈佛醫學院對8所附屬醫院患者的電子病歷進行整理,得出某年銷售額達數百億美元的大牌藥物可能存在致命的副作用,分析結果提交美國食品藥品管理局(FDA)后,直接導致該類藥物下架。 在英國,牛津大學臨床樣本中心選取了15萬份臨床數據,通過簡單的數據整理和畫圖,得到了50歲以上人群正常血壓值的分布范圍,直接改變了人們對高血壓的認識[4]。應用案例證明了大數據技術在醫療健康領域具有巨大的發展潛力,也讓我們注意到大數據在采集、存儲、處理等方面獨有的特點與我們目前處理數據的方式有很大不同。醫療健康大數據將助力醫療健康服務從疾病診療向疾病預防和居民健康管理轉變,從單一的醫療服務向醫療公立機構綜合管理服務轉變,從體驗式醫療服務向基于循證醫學的個性化醫療服務轉變。因此,醫療健康大數據分析技術將實現醫療健康領域離散、異構的海量醫療數據源的整合,形成覆蓋范圍廣泛的電子病歷和居民全生命周期的健康檔案,建立面向健康應用需求的醫療健康信息數據分析、挖掘、預警和指導。
本文將結合我國醫療衛生信息化發展現狀和自身數據特點,基于多來源、異構的海量醫療衛生數據,攻克醫療衛生大數據分析技術難題,設計研究基于大數據的醫療衛生信息服務平臺,探索一條可行的技術路線,實現衛生管理部門對慢性病跟蹤監測的科學量化分析,合理調配和利用醫療資源,實現療效對比和安全用藥指導,提高醫療服務行業醫療服務水平,并指導居民改善生活習慣,進行慢性病干預,提供個性化的健康保健指導,促進居民健康自我管理。 2 基于大數據的醫療健康信息服務平臺的設計目標基于大數據的醫療健康信息服務平臺將以多來源、異構的海量醫療健康數據為基礎,整合國家有關衛生標準、藥品、氣象記錄以及其他權威機構發布的行業相關數據,突破醫療健康大數據所涉及的數據融合、存儲與處理、隱私保護、大數據挖掘與分析等關鍵技術,設計開發基于大數據的醫療健康信息服務平臺,為居民、醫生、科研和健康管理機構提供基于醫療大數據實時融合和深度應用分析的業務支撐。 3.基于大數據的醫療健康信息服務平臺研究平臺總體架構如圖1所示。 基于大數據的醫療信息服務平臺 醫療大數據應用管理支撐層 醫療大數據分析層 醫療大數據存儲處理層 圖1 基于大數據的醫療信息服務平臺架構 構建醫療大數據資源層:研究多源異構數據源對接技術,開發多源異構數據源采集平臺,通過融合處理,構建涵蓋診療數據、藥品數據、健康數據、氣象環境數據、行業知識等的醫療大數據資源層。 發展醫療大數據存儲處理層:發展醫療健康大數據存儲處理層,實現大數據的采集、處理和存儲。利用分布式計算框架,實現對不同計算框架的統一資源調度管理技術和引擎。 發展醫療大數據分析層:分析層在存儲處理層的基礎上,構建醫療健康大數據的挖掘、分析工具。
和知識庫。發展醫療大數據應用支撐層:應用支撐層將提供醫療大數據應用支撐管理平臺,對外提供注冊、封裝、調用、開發等標準化服務,打造邏輯隔離、獨立運行的數據提供方和數據使用者的交互環境。發展醫療大數據應用層:面向居民、公共衛生、醫生、科研人員、醫務管理機構開展一系列應用服務。3.1醫療大數據資源層醫療健康大數據由于業務的復雜性,涉及的資源種類繁多,結構復雜,主要包括:1.診療數據診療數據包括門診診斷數據、住院數據、處方數據、檢驗檢查報告等,該類數據主要來源于區域醫療系統、社區醫療系統、醫療機構系統等,大部分數據都是結構化的,但在一些數據域(如出院小結、診斷說明等),是非結構化的文本信息。2.藥品數據藥品數據來源于公共醫療監管部門。 數據通常為結構化數據,部分為非結構化數據,數據量在幾GB左右,通常需要長期保存。 3.健康數據 居民健康數據通過數據交換從區域醫療信息平臺、醫院、衛生部門信息中心、第三方機構等單位獲取,通常以流式方式更新數據,數據結構化程度較高。 4.醫學知識庫 醫學知識庫主要來源于權威數據源的專業公共知識庫,或者通過醫療大數據分析建立的專有知識庫。
5.外部數據 外部數據主要指國家衛生標準、藥品、環境、氣象等數據,這些數據可以從互聯網上獲取,經相關專家確認后方可使用;不能從互聯網上直接獲取的,可通過權威機構的開放數據服務獲取。以上多源數據收集后,需要進行有效的整合和處理,才能有序地組織起來,形成醫療大數據的核心資源。 1.醫療大數據主數據管理 醫療信息系統各業務部門之間不可避免地存在資源冗余、描述不一致、數據項不完整等情況,因此急需建立集中式主數據管理,解決以下問題: 1)醫療大數據的整合處理需要發揮統籌作用健康大數據管理與服務,加強各業務部門管理信息系統與應用系統的聯系; 2)避免數據來源不同、數據統計和口徑不一致,消除“信息孤島”,提供一致的數據基礎; 3)降低軟硬件投入和系統維護成本。 提高基礎設施綜合利用率以及系統和數據的安全性。2.PIX(Patient Identity Cross Index)醫療衛生信息處理與集成,需要解決不同醫療機構、不同信息系統間的數據共享和身份識別問題。國際上,IHE組織提出了“跨企業文檔共享(XDS)”集成規范。XDS的基本思想是利用EBXML Registry架構存儲醫療文檔以供共享。要實現共享,首先要解決不同信息系統中同一患者的患者識別號(PID)的關聯問題。
為此,IHE專門定義了“患者識別交叉引用(PIX)”集成規范,XDS也建議使用PIX來管理患者識別號的關聯,PIX框架如圖2所示。圖2 PIX框架不旨在 3.融合診療事件,形成醫療事件時間序列 時間序列分析直接以事物在不同時間的狀態所形成的數據為對象,通過分析時間序列數據的特征來揭示事物發展變化的規律。在做分析之前,需要先將醫療數據按照時間序列進行整理和集成。? 45] ?
時序融合是按照居民醫療健康數據產生的時間,按照元數據規范對數據進行整合,形成覆蓋居民全生命周期的完整醫療健康數據集。對于時序融合,首先要求數據覆蓋面廣,覆蓋居民所有的醫療健康行為;另一方面要求數據采集及時,能夠快速獲取數據;最后要求數據的分析與融合完整。3.2 醫療大數據存儲與處理層針對不同的數據源、不同的數據格式、不同的數據邏輯關系,醫療健康大數據存儲處理平臺提供了實時數據庫、關系型數據庫、NoSQL數據存儲、HDFS文件存儲等多種專用的存儲服務和系統,保證數據的高效存儲和有效管理。存儲層還提供了統一的數據訪問和管理工具。醫療大數據在邏輯、存儲、訪問應用等方面都有其特殊性。 具體來說,醫療大數據來源多樣:醫療信息通常由區域醫療、社區醫療系統提供,為格式化數據,每日更新;健康監測數據需要面臨海量并發監測采集數據的提交,數據規模小但數量龐大、并發性強,需要快速及時處理;影像數據數據量巨大,但數量相對較少,不同的數據需要采用不同的處理方式,提高處理效率。平臺構建了多框架融合計算調度引擎,在此引擎上提供離線批量計算、在線實時分析計算、流式計算等多種計算框架的集成調用。
廣——1廣——] dNode dNode 廠—]廠—] rNode 懺節點 氟 I. . . . . . . . . . . 一J I. . . . . . . . . eJ 叵茫圈巨圈叵圍圈圜圈圜圈圜圈圜圈圖 3 多框架融合管理引擎 多框架融合管理引擎對集群資源進行統一管理,通過虛擬化形成 CPU、內存的資源池。所有計算框架都需要向多框架融合管理引擎申請才能獲得資源,不同用戶申請的資源在邏輯上是隔離的,所有申請的資源都會受到多框架融合管理引擎的監管,當資源故障或者負載過高時,能夠動態分配、調整資源,提高利用效率。 1. 離線批量計算方式(Map~Reduce) 利用離線批量計算框架,通過Map和Reduce操作,可以提供醫療健康數據的離線批量分析服務。 2、在線實時分析計算框架(Spark) 在線實時分析計算框架采用內存分布式數據集分析技術,結合平臺提供的實時數據庫,提供交互式查詢服務。在線實時分析計算框架引入了內存集群計算的概念,將數據集緩存在內存中,縮短訪問時延。在線實時分析計算框架還引入了一個抽象概念,叫做彈性分布式數據集(RDD)。
RDD是分布在一組節點中的只讀對象的集合,這些集合具有彈性,如果數據集丟失,可以重建。3.流式計算框架(Storm)從數據源特性來看,流式計算框架與Map-Reduce的明顯區別在于流式計算框架的數據源是動態的,即收到后逐條處理。面對不斷更新的醫療大數據,流式計算框架能夠快速、高效地處理相關數據。3.3醫療大數據分析層在醫療大數據分析層將重點解決兩個層次的分析工作:1)針對醫療大數據分析的分析挖掘,優化改造傳統通用數據挖掘工具并實現并行化,在醫學領域本體的支持下,為醫療大數據應用服務提供專用的分析模型庫;2)在挖掘利用醫療大數據的基礎上,輔以領域知識構建技術,建立生物醫學本體知識庫模型。 1.面向醫療大數據分析挖掘 1)利用特定人群挖掘、熱點識別模型、多標簽分類、直接分類、效用序列模式挖掘、相關性分析、時間序列演化分析、不均衡分析及通用醫學統計分析算法對醫療大數據進行分析,通過分布式計算等技術手段,在不犧牲挖掘效率和挖掘質量的前提下,從算法并行優化的角度提高計算效率。 2)利用Bloom filter、哈希等技術解決算法優化時可能出現的數據維數災難問題,實現快速數據查找和比對,降低計算內存消耗。 圓南院