Page 83 - 大数据技术及安全研究
P. 83
第二章 大数据在医院建设发展中的应用
瘤分期的数据,但能不能把它检索出来?诸如此类问题是大量存在的,属于共性
的需求。第二个基础需求关于随访。因为随访是临床科研的一项基础性工作,前
面讲的很多研究是要与随访数据做对照的。如果没有随访数据,数据的价值就大
打折扣。但是,目前医院里普遍缺乏统一的随访机制,很多随访在科室,零散重复,
数据不完整,也不能共享,故而迫切地需要建立系统性的随访机制和随访数据的
管理机制。另外,几乎所有的科室都希望建立自己的专科专病数据库。有些数据
库有软件系统支持,有些数据库是一个 Excel 表,数据重复录入,可持续性很差,
这些问题都是医院里面迫切需要解决的。
(三)医疗大数据利用技术的挑战
总体上,医院大数据的利用主要涉及 3 个方面的因素。一个是要有思路,一
个是要有数据,一个是要有技术。首先,大数据的应用主体是医护人员,他们要
有好的应用思路。其次,要有数据,巧妇难为无米之炊。有些人讲大数据时代,
不怕数据不好,甚至说不好的数据才是大数据的特征,笔者认为是把问题弄颠倒
了,原始数据不好是对其无可奈何了而已。实际上,从医院的大数据利用来讲,
大量的是小数据应用,少量的是大数据应用。临床实际上收集的那些病例基本上
是几千例,上万例已经很好了,甚至几百例的都有,单从数据量而言,算是大数
据吗?如果当数据量不够大时,数据质量再不好,那数据的可用性就很差了。所
以我们非常需要完整的数据、高质量的数据。最后,要有好的技术支持。我们访
问了医院的许多科室,得到的结论是,现在医院数据利用的需求非常旺盛,但在
手段上,仍然是“小米加步枪”,说得过一点甚至是赤手空拳。为什么这么说?
看一看以下几项技术:
第一,医学的自然语言处理,这是个非常基础性的技术。无论是病历检索,
还是抽取特征数据,我们现在都没有很好的手段。例如,我们虽然已经可以做到
对病历的自由文本进行检索,但是如果要做肺癌研究,需把一个人的吸烟状态抽
取出来,以用来研究他和吸烟的关系,然而怎么把它从病历中提出来?直接采取
计算机识别“吸烟”两个字,它可能把“不吸烟”也提取出来了。这便涉及自然
语言处理的问题,但到今天为止还没有很好地解决。这里涉及医学术语的规范化
问题,比如黄疸和黄染,脑中风和脑卒中,这些是不是一个概念,就需要一个标
准。因此,关于医学语言的语义理解,我们仍然面临很大的困难。
第二,病例的检索上文已阐述。网上百度也好,其他搜索也好,都提供了很
·71·

