Page 44 - 现代护理学理论与实践创新研究
P. 44
现代护理学理论与实践创新研究
Research on Modern Nursing Theory and Practice Innovation
据挖掘通常按模式的作用,分为描述性与预测性模式。描述性模式是对数据集中
已经存在的规则、规律、知识特征进行描述,而不进行任何预测(回顾性);预
测性模式是从已知的数据集中挖掘出某些特征信息,进而对未知的数据集进行预
测(前瞻性)。
数据挖掘本质上也是一种高级、深层次的数据分析手段,成熟的相关技术加
上高效的数据库搜索引擎,利用数据挖掘技术可发现以往数据集的规则,进而利
用这些规则预测未知数据集,达到科学预测的目的。数据挖掘技术的流程主要包
括数据的采集(根据研究主题从数据库或医院信息系统中选出需要分析的相关临
床数据,构建数据集)、处理(缺失值、标准化术语、特征选取等)、分析(根
据研究目的和数据特征选择合适的算法并建立模型)和解释(对所得模型性能进
行评价)。有学者认为,使用特定算法对临床实践数据(如当变量之间的关系复
杂、多维和非线性时)进行挖掘,能够提供一组有用的规则,区分一系列假定风
险,在预测临床结果方面比传统统计技术更为精准。
2. 数据挖掘技术常用算法
数据挖掘中用于分类的常用算法有:人工神经网络(artificial neural
network,ANN)、支持向量机(support vector machine,SVM)、贝叶斯法(Bayes)、
决策树(decision tree,DT)等。根据数据的特点选用合适的算法,能够提取更
为有效的内容特征,挖掘出更有价值的信息,这在肿瘤临床护理实践中提高分类
准确率方面具有十分重要的意义。ANN 是一种非参数机器学习方法,模拟生物
神经系统,由大量的节点(或称神经元)相互联接构成。其通常有三层,即输入
层、中间层(隐藏层,可以有多个)和输出层,所有的输入层信息都以分层的方
式传递到输出层。 输入层既可以是第一层的原始数据,也可以是另一层的输出(输
出形式可以是数值数据、文字、图像等)。SVM 是一种按监督学习对数据进行
二分类的广义线性分类器,其可以很好地应用于高维、高通量数据,如用于癌症
基因组分类或子分类,尤其在识别复杂数据集中的细微模式方面功能非常强大。
Bayes 是检验多元关系的一种强有力的方法,通过直观的图形来可视化变量之间
的相互关系,被广泛地应用于基因组学和医学领域,此外,可指导干预研究的设
计。DT 因其决策分支图形和树的枝干相似而得名。它采用树枝状解释对象属性
与对象值之间的关系,树中每个节点表示某个对象,而每个分叉路径则代表某个
可能的属性值,具有根据数据的不同属性归为不同类别的特性。DT 算法的优点
32

