Page 166 - 中医针灸与人工智能
P. 166
中医针灸与人工智能
Chinese Acupuncture and Artificial Intelligence
3.随机森林(Random Forests,RF)算法
RF算法是一种集成学习方法,通过自助法重采样技术,从原始训练样本集N
中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以
上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成
的分数而定。RF算法具有训练速度快、适应不平衡数据集、适应多分类问题、
泛化能力强等特性,适合进行肠道菌群数据分析。例如在处理16SrRNA基因等肠
道菌群数据时,由于其天然可用来对分类问题中变量的重要性进行排序,使之能
够在不做特征选择的情况下快速地进行模型训练,而且在处理肠道菌群数据不均
衡的问题时可自动平衡样本误差。目前,RF算法已广泛应用于构建疾病预测模
型,例如Ai等利用RF构建结直肠癌预测模型;Pasolli等利用RF构建2型糖尿病、
肝硬化等疾病的预测模型。
4.人工神经网络(Annual Neural Network,ANN)算法
ANN是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结
构和功能的计算模型,其具有自学习、自组织、自适应能力,主要包括多层感
知机(Multiple Layer Perception,MLP)、卷积神经网络(Convolution Neural
Network,CNN)、循环神经网络(Recursive Neural Network,RNN)、深度置
信网络(Deep Belief Network,DBN)等。ANN算法具备极强的从大量复杂数据
中进行特征提取和特征表示的能力,通过构建人工神经网络对肠道菌群数据进行
深度学习,能够挖掘出其中潜藏的深层次抽象性特征,从而构建分析性能更佳、
泛化能力更强的数据模型。然而在肠道菌群数据分析中,使用ANN训练预测模
型时,对数据量的要求将极大地提高,训练过程的控制(参数设置、迭代次数
等)也将更加复杂,训练结果也会具有更大的未知性和不可解释性。因此,采用
ANN方法进行建模,在具有明显优势的同时也带来诸多挑战。在以往使用ANN
进行建模的研究中,Reiman等尝试使用多层感知机、深度置信网络、卷积神经
网络、递归神经网络分别构建了肝硬化疾病预测模型,并取得了较其他传统机器
学习算法更好的多分类精度。
二、发展方向
中医药富含了丰富的信息资源,现代期刊关于中医药的报道数量庞大,信息
极其繁多,而对这些数据缺乏合理的规范、整理、分析运用。因此需要借鉴现代
的科学技术,有效地提高资源利用率,从海量的数据中挖掘潜藏的信息,得到临
158

