◎ 科技日报记者 张佳星
近日,《自然》子刊报告了一种药物开发的新技术,利用“达尔文进化论”的加速版,通过随机程序化组装快速生成数百万个小分子组合,迅速找到了新的肿瘤精准治疗的候选药物。
利用不同的解决方案或研究思路,通过收集、汇总大量数据,实施数据挖掘、分析,将高效地开发药物或者制定有针对性的治疗方案,越来越成为目前医药研发公司、医疗服务机构、医院、诊断中心等开展精准治疗的有效路径。
在百万乃至千万级别的海量数据中发现有效目标,算法和算力正成为医药研发领域不可或缺的核心技术。医疗大数据云端化,将较好地弥补医疗行业在算法、算力方面的“短板”,助推精准治疗时代到来。
虚拟图,图片由受访单位提供
云端化数倍增加数据挖掘量新冠疫情到来,医疗行业更加意识到,需要通过数据的云端化,更好地驾驭更大量的数据,助推精准治疗时代到来。
以阿斯利康为例,作为在研发新冠疫苗和药物方面进展快速的跨国型药企,据统计,它在24小时之内约需要进行510亿个数据的统计分析,这些数据包括基因类型的数据和病患的数据。这些数据的分析支撑他们在2020年可以同时进行40多种新药开发的项目。
但并不是所有的数据都是能直接就用的,在数据挖掘之前,必须进行大量的“结构化”工作。但事实上,一些医疗机构在收集患者数据时,经常难以结构化,例如同样的“浸润”的描述,在不同科室学术术语不同,这使得在算法挖掘时数据不大好用。
为了让非结构化数据也能实现分析功能,很多医疗领域的科技公司都在努力地创新、尝试。亚马逊云科技通过降低门槛、准备数据和标注数据,扩大机器学习在医疗领域的数据发掘范畴。
“我们发布的应用中,之前对专业的标注有专门的设计,在新冠疫情期间,肺炎的数据通过专业团队标注进行了及时跟进。” 亚马逊云科技机器学习相关负责人介绍,专业团队拥有特定领域和专业的知识,并且符合客户对于数据安全和隐私、合规等要求。
云端化降低了数据挖掘的门槛,让医疗行业更好地驾驭患者数据,提供精准化的诊断、治疗的方案,提高整个医疗服务运营的效率。
云端化实现随叫随到的“存储”医疗大数据里最常见的是影像数据,由于影像数据格式标准,因而容易获取和使用。中科院分子影像重点实验室主任田捷曾表示,未来的影像中心就像飞机驾驶舱一样,是各种各样信息的综合体;而未来的医生则相当于飞行员,要处理各种各样的信息。
医疗影像信息有着归档要求高、数据量大、存储量大,对于云端读取的实时性提出更高的要求。医疗影像的数据长年不能删除,需要归档很多年。在实际的应用中,这些影像数据可能一年都用不到一回,但也可能突然就会要求马上调用这个数据。
医疗数据的存储特殊性需要云存储即满足低成本的长期存储,又要满足即时快速调用的要求。通过智能分层的技术,亚马逊云科技构建了及时索引的分层,可以帮助客户在归档的数据里面产生索引,在需要取用的时候,仍然能够像热数据一样马上就能索引到。而在不需要索引的时候,这些数据像归档存储一样,长期保存在非常低的成本存储层中。据介绍,这一技术可以使归档数据在毫秒级完成访问,并将节省近70%的存储成本。
云端化实现低门槛的机器学习无论是医学领域还是数据科学领域都是注重实践的研究领域。相关专家表示:人工智能技术在医学上的研究、应用,不是写文章、不是谈概念、也不是纸上谈兵、更不仅仅是做筛查,而是要将技术与临床紧密结合,解决实际临床问题。
然而,缺乏跨学科的高水平人才,仍旧是让医疗行业与数据挖掘融合起来的难点之一。如何让对数据和编程一窍不通的医疗学者快速上手机器学习呢?
“他们无需任何技术背景,可能连可以写代码的开发人员都没有,而且他们完全不需要具备机器学习或者其他的一些技术能力,就能够用到我们的人工智能或机器学习服务。” 亚马逊云科技机器学习和医疗人工智能总监Taha Kass-Hout博士表示,只需要用自然语言去请求服务,通过聊天框搜索就能够使用机器学习服务。
人工智能可以帮助客户更好地去编撰数据,并对数据进行结构化处理、打标签等工作,实现机器学习的托管型云服务。
云端化通过降低机器学习的使用门槛,大大加速了临床治疗的精准性。例如在慕尼黑白血病实验室建立了世界上最大的白血病数据,通过把患者的基因数据和患者的电子病历数据整合在一起,用于精准化的临床治疗。
编辑:刘义阳
审核:王小龙
有话要说...