当前位置:首页 > 科技 > 正文

医疗大数据及精准医疗

谢邦昌

台北医学大学管理学院及大数据研究中心 院长/主任

大数据的趋势以及价值是现在最热门的话题,也改变了许多企业经营的方式,对于各行各业来说是势必是一个大挑战,能否将大数据的力量从危机到转机就要看现代经营者有没有转变传统型态的思维?

首先什么是大数据?传统数据一年的数据量大概为3TB左右,以现今数据来说一天的资料量为50TB,由这简单的数据量差就可以得知传统数据跟现今数据的差异多么庞大,也就是现在俗称的大数据时代。数据庞大之下,不管是银行业、传统零售业、社会建设公共方面甚至是医疗保健产业对数据处理、分析方式以及经营企业的模式将会有所改变。

在过往的医疗诊断历史,到医院看病时必须耗费许多时间等待看诊,而医生看诊又要再花费时间。当医生要求病患拍摄X光片或检验时,又要再花额外许多时间诊断。而在现今医疗信息高度发展的台湾,看诊程序从网络挂号、候诊顺序、诊间病历调阅、医师医令、处方开立、放射影像存取、检查检验数据储存等,无数的数据信息便在医院中传递、交换、储存。同时大多数的生理检验信息在你回诊时得以从电子病历中检索,这些我们认为理所当然的信息处理,在台湾我们只要花费少许的时间如一个早上便完成了,而这一切正是仰赖医学信息分析与医疗大数据的交换处理。

医学大数据的产生,主要归功于医疗设备数字化及电子化病历发展两大领域的突破,透过仪器数字化,医院得以获得更多病人疾病与健康信息纪录。而在病人医疗诊断方面,为了完善纪录病患个人资料、诊断数据与过往医疗纪录等,即促成了电子病历系统发展。医学大数据发展由过去纸张记录、纸本信息数字化、医学纪录储存到现今多信息整合,其数据量有着爆炸性的成长,不仅由过去个人社经信息、诊断信息等文字媒介,更拓展到多媒体影像信息,如X光影像,动态视讯影像信息,如核磁共振MRI以及电讯号信息,如心电图等等,这些庞大医学数据的汇集与高度整合技术能力,正是台湾医学信息领域发展领先的原因,同时更显得医学数据发展的多元应用及其重要性。

而由医疗健保产业来说,个人医疗信息终端的产生给医疗产业带来革命性的变化,连结了传统医院、政府(社会保障)、保险公司、药物生产公司等相关产业,形成新的行业生态圈。将互联网+医疗保健去建构一个智能的健康系统,在整个健康系统下会有智能的合作伙伴,包含医院、医生、诊所、学术中心、保险公司、药厂、医疗设备制造商、政府等相关人员等,接着产生出个人化的护理体系,其中包含个人健康、成本节约、提高效率、病人教育、增强通信、绩效度量、预防等相关内容,使得人们有着更健康的社会。

经常听到的医疗云、照护云以及健康云都是运用云端技术结合大数据去提供健康咨询的服务。在网络普及下,人手一台智能型手机让这些云更能够去发挥,客户只需要使用健康感知的终端,其中包含穿戴型装置、爱睡宝、电视机以及相关的智能型测量装置,就能够让亲人、医生以及相关的护理人员得知目前的身体状态,不仅如此,还可以远程监护以及远程门诊,一切都透过远程医疗平台让人们有着安全、方便、快速及健康舒适的生活环境。

大数据在生技医疗卫生发展状况及应用,大数据已深耕于经济领域且创造了巨大的经济价值

美国的大数据产业已经创造了巨大的价值,具体表现在:大数据使美国医疗服务质量得到提高。

  对于医疗服务的提供方和支付方来说,在减少医疗成本的同时不断提高医疗质量和效率仍然是一个难以实现的目标,而这也是改善民生的重大机遇。2010年,全美医疗支出占国内生产总值的17.9%,比2000年增长13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的医疗资源。

对这些疾病和其他相关健康服务的管理将深刻地影响国家的福祉。在这方面大数据可以发挥作用。为在广大人群中取得最有效的医疗效果,更多地使用电子健康记录(电子健康档案),并与新的分析工具相结合,将提供挖掘信息的机会。研究人员可以利用信息寻找有效的统计趋势,并依据真实的医疗服务质量开展医疗评估。

大数据在医疗及生技业之应用

医疗及生技业大数据应用的当前需求来自疫情和健康趋势分析、电子病例、医学研发、临床试验等领域。

疫情和健康分析趋势

利用大数据进行疫情分析,说明这个地方可能处于某种疾病蔓延,实时掌握病情。

Google和疾管局一样能够掌握流感疫情

2009年又冒出了一种新的流感病毒,称为H1N1。这种新菌株结合了禽流感和猪流感病毒,迅速蔓延。短短几星期内,全球的公共卫生机构都忧心忡忡,担心即将爆发流感大流行。有些人发出警讯,认为这次爆发可能与1918年的西班牙流感不相上下,当时感染人数达到五亿人,最后夺走数千万人的性命。雪上加霜的是,面对流感可能爆发,却还没有能派上用场的疫苗,公共卫生当局唯一能努力的,就是减缓其蔓延的速度。为了达到这项目的,必须先知道当前流行感染的范围及程度。
在美国,疾病管制局(CDC)要求医生一碰到新流感病例,就必须立刻通报。即使如此,通报的速度仍然总是慢了病毒一步,大约是慢上一到两星期。毕竟,民众觉得身体不舒服之后,通常还是会过个几天才就医,而层层通报回到疾管局也需要时间,更别提疾管局要每星期才整理一次通报来的数据。但是面对迅速蔓延的疫情,拖个两星期简直就像是拖了一个世纪,会在最关键的时刻,让公共卫生当局完全无法掌握真实情况。
说巧不巧,就在H1N1跃上新闻头条的几星期前,网络巨擘Google旗下的几位工程师,在著名的《自然》科学期刊发表了一篇重要的论文,当时并未引起一般人的注意,只在卫生当局和计算机科学圈里引起讨论。该篇论文解释了Google能如何「预测」美国在冬天即将爆发流感,甚至还能精准定位到是哪些州。谷歌的秘诀,就是看看民众在网络上搜寻些什么。由于Google每天会接收到超过三十亿笔的搜寻,而且会把它们全部储存起来,那就会有大量的数据得以运用。
Google先挑出美国人最常使用的前五千万个搜寻字眼,再与美国疾病管制局在2003年到2008年之间的流感传播数据,加以比对。Google的想法,是想靠着民众在网络上搜寻什么关键词,找出那些感染了流感的人。虽然也曾有人就网络搜寻字眼做过类似的努力,但是从来没人能像Google一样掌握巨量数据(big data,直译为大数据),并具备强大的处理能力和在统计上的专业技能。
虽然Google已经猜到,民众的搜寻字眼可能与流感有关,像是「止咳退烧」,但相不相关其实不是真正的重点,他们设计的系统也不是从这个角度出发。Google这套系统真正做的,是要针对搜寻字眼的搜寻频率,找出和流感传播的时间、地区,有没有统计上的相关性。他们总共用上了高达4亿5千万种不同的数学模型,测试各种搜寻字眼,再与疾管局在2007年与2008年的实际流感病例加以比较。这套软件找出了一组共四十五个搜寻字眼,放进数学模型之后,预测结果会与官方公布的全美真实数据十分符合,有强烈的相关性。
于是,他们就像疾管局一样能够掌握流感疫情,但可不是一、两星期之后的事,而是几近实时同步的掌握!因此,在2009年发生H1N1危机的时候,比起政府手中的数据(以及无可避免的通报延迟),Google系统能提供更有用、更及时的信息。公卫当局有了这种宝贵的信息,控制疫情如虎添翼。
最惊人的是,Google的这套方法并不需要去采集检体、也不用登门造访各家医院诊所,而只是好好利用了巨量数据,也就是用全新的方式来使用信息,以取得实用且价值非凡的见解、商机或服务。有了Google这套系统,下次爆发流感的时候,全球就有了更佳的工具能够加以预测、并防止疫情蔓延。

电子病例

将分散在医院中的各个部门、各式各样的病例集中在云端,医生们可透过语意搜查找出任何病例中的相关讯息,进而为医学诊断提供更加丰富的数据。可提供以病患为中心的个人化疗程建议,或帮助对医疗问题及其患病率进行自动诊断。

台湾的医疗黑金:健保数据库

Google台湾董事总经理简立峰曾表示:「我认为最有价值的宝藏,就是台湾的全民健保数据库。」,台湾医疗产业贯穿上下游的数据,全在健保数据库里面,而且几乎所有人都要加入,全世界只有台湾拥有如此完整的数据库。美国麻省理工学院电机与计算机科学院教授约JohnGuttag也说,相较于美国,台湾的健保是由政府买单,这让医疗数据取得变得容易,「这是台湾的机会,未来也很有机会从中获利。」

累积15年来、2千3百万人民的健保数据库,正等待着识货的伯乐来挖宝。台中荣总医生、阳明大学教授吴俊颖以亲身经验说明,过去医学界只知道,幽门螺旋杆菌跟胃癌有关,但是却没有规模够大、时间够长的临床实验可以证实,他与研究团队藉由探勘台湾的健保数据库,发现服药根除幽门螺旋杆菌,可以降低胃癌的发生率。

这篇论文不只发表在肠胃科排名第一的杂志《肠胃病学》上,更震撼了日本医学界。日本是全球胃癌罹患率最高的国家,当地医生特别把这篇论文翻译成日文,并且说服日本厚生省,对幽门螺旋杆菌感染患者全面给付杀菌疗程,不仅影响医师的临床运作、政府决策,甚至有可能改变国际性医疗行为准则。

吴俊颖认为,台湾的健保数据库内容巨细靡遗,所有医疗项目都记录得一清二楚,「它像是永不干涸的黑金,当数据越来越多串联和使用,就会越来越有价值。」然而,吴俊颖也提到,健保数据库有个缺点,就是缺乏诊断和检测结果。

麻省理工学院教授PeterSzolovits也曾举例说明过,如果有一位病患发现关节肿起来,医生跟他说这「疑似」是风湿性关节炎,因此记录风湿性关节炎的费用,可能后来病人发现根本不是这个病,如果把这笔数据用在风湿性关节炎的医疗研究上,那就会变成糟糕的数据,影响研究结果。

「如果能够把健保数据库与医院病历的数据库做结合,那它就会变成最完美的医疗数据库!」吴俊颖提到,病历数据包含检测和治疗的结果,不只对于台湾医疗产业来说非常有价值,国内外的生技和医药大厂,也都会抢着要跟台湾合作。

想象一个情境,有天当你到南部度假,突然感到身体不适,就近到当地的诊所就医。第一次跟你见面的医生,登入全台湾共享的医疗数据库,调出你在其他医院的病历数据,花几分钟就能对你的身体了如指掌,还能透过临床决策辅助系统,显示出跟你有相同症状的病友群体、使用各种药物的治疗状况,透过大数据分析可以协助医生在最短时间内,找出最适合的治疗方式。

「很多人以为这样的愿景,离现实生活非常遥远,其实台湾已经走在半路上了。」台大医院竹东分院院长王明巨如此说道。的确,台湾医疗机构的病历电子化程度很高,很有可能成为全球第一个全国医院流通电子病历的国家。

医学研发

运用实时监测及分析大量的仪器数据,建构预测模型,并利用统计工具改善临床试验设计,分析临床试验数据。发展个人化医学及疾病发作模式等医疗研发。

利用大数据解决多发性硬化症的算法运算复杂度

位于水牛城的纽约州立大学(SUNY)是一个领先全球的多发性硬化症(MS)研究中心。MS是一种具破坏性的、面性的神经系统疾病,影养全球近百人。这种疾病会使人的大脑和骨随发炎并产生神经病,导致患者可能出现行动不便、视力受损、疼痛等症状。

MS的病因是很复杂的,没有一个单一基因是可能的致病源。因此自2007年以来,SUNY就一直希望透过扫描MS患者的基因组的变化来开发新的治疗方式,透过从原本成千上万的基因序列的变异SNP,SNP指的是单核桃多型性,来获得单一样品,研究基因产物和其他基因产物及环境因素进行的交互作用。

研究人员的想法是以多个SNP变异点结合不同的环境变因,并使用一种被称之为「AMBIENCE」的算法,来检测县性和非线性两种数据数据中的相关性,以识别这些交互作用之间的关系。但是这个想法就如同大海捞针,因为环境变因包括像是实验对象曝晒太阳的时间长短、维生素D产生的量、吸烟的情况等皆有可能影响研究结果。况且人类的基因由23对染色体所组成,其中包含约30亿个DNA碱基对,这些因变量和应变量数量多到吓人,必须靠建构一套计算量高达1018的高等分析模型才能解决。

因此SUNY与IBM合作,建构一套搭配软硬件的数据分析系统,以往平均需要27.2小时的工作,缩短到现在只要11.7分钟即可完成。而且这套系统不仅大大简化和加速了复杂的分析过程,还提供了不同类型的变量值,如:分类变量、分配卜瓦松变量或连续常态变量等。过去,只要研究中增加一个新的变量值,研究团队就必须重新编写整个算法,而现在只需按几个键即可完成。

大数据系统分析的应用除了MS的研究以外,全球估计超过3300万人感染,至今没有方法可以完全治愈的艾滋病,以及罕见疾病等,都已开始利用大数据进行大型的医学研究。

临床实验

临床试验藉由大数据而有了重大的改变,可利用临床验数据、仪器读数等,进行比较效果研究、临床决策支持系统、远距病人监测及加强医学数据透明度等方面。

拥有数据数据保护的早产儿

所谓的早产儿是指怀孕不到37周就提早出世的宝宝。这些提早降临人世的小仙子,如果出生后体重不到1500公克,很可能会因为免疫系统尚未发育完全而受到感染,一旦感染之后就很容易引起呼吸衰竭、肺出血及败血症。

不过,加拿大多伦多市立儿童医院里的早产儿,却可以睡得特别安详,因为他们是有数据数据保护的「datababy」。随着医疗设备的发展,利用医疗监测仪器监测病患的生命征象,如血压、心跳和体温等,已经是非常普遍的事了。通常这些仪器还具有警报功能,一旦生理的数据数值超出正常范围时就会发出警示,医疗人员就会采取因应行动。但是即使医术再精湛、经验再丰富的医护人员,可能也无法准确地察觉这些异常的发生时间和严重性,尤其当发生在脆弱的早产儿生身上。

根据美国弗吉尼亚大学追踪以往的数据显示,新生儿受到感染初期的12到24小时,因为脉搏和心跳几乎都可在接受的范围内,因此医护人员很难从生命征象数据的改变中察觉,等到警示灯响起,常常为时已晚。

连续监测和记录这些生理性数据,可以观察出新生儿是否遭受感染的早期征兆,但数据量实在太过庞大了。估计这些监测设备每一秒钟就会产生1000个读数。以往是30到60分钟由医护人员归纳出一个数据做为纪录,然后储存72小时。如果要把这些读数统统记录起来,根本是不可能的事。

但这项不可能的任务,并没有吓跑安大略省理工学院和IBM。他们使用来自怀生研究中心的最新技术,利用江河运算平台支持大量数据的收集和分析,一天24小时不间断地收集和记录着包括早产儿的体温、心跳、血氧饱和浓度和血压等电子监测仪器产生的大量数据,以及周遭环境如温度、湿度等相关数据。

在保护病人的隐私安全考虑下,这些数据会直接传到安大略省理工学院研究中心和IBM华生研究中心;系统会分析和研究哪些因素的交互作用会造成感染,甚至哪几床的新生儿因为符合条件较多,可能出现疾病或感染的风险较大。之后,系统再将分析结果提供给医护人员比较判读。这些动作都在数秒内完成。藉由这项计划,儿童病房里的医护人员已经可以提前18到24小时,预防新生儿败血症的发生。

由于大数据在规模(Volume)、增加速度(Velocity),以及价值性(Value)上正呈现几何上升,而其数据所表现的多样性变化(Variety)与数据的有效性(Validation),更容易成为企业的风险源头。面对排山倒海而来的大数据,企业需运用大数据,迅速将数据转化成商业智能,运用分析信息,提升市场的洞察能力,做出更准确的营运决策。例如:电信业者可以分析手机在基地台漫游的特性,提供更好的在地费率;信用卡业者可以每天定期分析各种信用贷款所产生的风险,动态调整信贷利率;便利超商可以分析消费者的购买习惯,动态调整架上存货数量等;制造业者可透过现场制造系统所记录的大量在线实时生产数据进行分析,以协助制造业改善制程、提升良率,并减少物料浪费。因此大数据将是企业未来所面临的关键挑战。鉴于目前信息以超乎想象的速度产生、累积、消逝,而企业所面临的商机亦有相同的循环表现。透过海量信息的实时性分析与运用,将可对不同信息的需求者,产生不一样的价值与意义。若能持续在既有的数据中发掘价值,同时考虑动态信息所带动的巨大冲击,并藉此掌握瞬息万变的市场契机,则大数据的分析与应用,将有助于各类型企业在相关营运领域中,引领下一阶段的企业永续发展。基于以上的发展潮流与态势,麦肯锡(Mckinsey)管理顾问公司于2010年已指出未来引领企业发展趋势的十大科技,其中即包含了大数据的获取与分析、云端运算服务的公共价值,以及企业多层面的参与互动及服务。在这些技术与行动通讯网络的整合应用下,企业未来所产生的数据量将呈现倍数成长,并导致过去传统的储存技术即将遇到瓶颈,因此,虚拟化的云端运算分析技术,以及大数据的管理,将成为各方面所即将面临处理的新课题。从目前的技术发展来看,未来各项实体化设施,将可能在未来藉由虚拟化的技术,得以降低各项成本的支出,然而云端运算与大数据的应用,绝非仅为建置一个大型数据中心即可,对于后续所产生大量数据下的数量管控、数据的质量与分析结果,以及这些数据所衍生之相关应用与服务,才是现阶段所应关心的重点。计算设施(Computer) 网络设施(Network) 储存设施(Storage) 数据数量管控数据应用服务数据质量分析虚拟化(Virtualization) 为了结合技术、数据,以及应用分析与服务等三项议题的探讨,本演讲大数据主要阐述BIG DATA 在生技医疗卫生上之应用与研究;抛砖引玉系望能激起大家投入医疗大数据的研究!

你可能想看:

有话要说...

取消
扫码支持 支付码