Page 165 - 中医针灸与人工智能
P. 165
第五章 肠道微生态健康与针灸干预研究
度,影响了整体的运行速率。
(二)人体肠道菌群分析常用的机器学习算法
机器学习可以通过计算机在海量数据中学习数据的规律和模式,从中挖掘出
潜在信息,广泛应用于解决分类、回归、聚类问题。根据训练数据是否预先分配
标签可将其分为有监督学习和无监督学习,有标签则称为有监督学习,反之为无
监督学习。此外,当输出数据为离散值时称为分类问题,输出数据为连续值时则
是回归问题。疾病预测建模是利用有标记的肠道菌群数据对机器学习模型进行训
练,生成一个具备根据输入的肠道菌群数据判断宿主患病情况的预测模型,所以
究其本质,疾病预测建模是一个有监督的分类问题。
1.支持向量机(Support Vector Machine,SVM)
SVM是一种有监督二分类器,当数据线性可分时,SVM通过在原始特征空
间中构建一个最优分割超平面并将其作为决策面,最大化正负样本之间的边缘距
离。当数据线性不可分时,SVM使用核函数将样本数据映射到一个高维空间,
然后寻找一个最优分类超平面隔离不同类别样本数据,从而进行分类。肠道菌群
分析中,SVM因其良好的泛化能力以及在基于小样本构建而二分类模型上的独
特优势,通常被作为一种基础算法被广泛应用,包括基于SVM构建菌群分类模
型、蛋白质预测模型和疾病预测模型等。然而,由于SVM对数据缺失这一问题
极其敏感,因此在使用SVM进行肠道菌群数据建模时,通过进行数据预处理保
证数据的完整性对于确保模型的性能至关重要。
2.K邻近(K Nearest Neighbors,KNN)算法
KNN算法也是一种在肠道菌群分析中广泛应用的算法,该方法的基本原理是
根据邻近样本来推断待测样本的类别。主要步骤包括:
计算每个测试样本和每个训练样本之间的距离。
找到距离最近的k个训练样本作为测试样本的最近邻居。
根据k个训练样本类别的众数作为测试样本进行分类。相较于SVM,KNN算
法的一大优势在于无需专门训练,而且更适合多分类问题。由于通常肠道菌群的
数据样本量有限,无法进行大规模的模型训练,因此KNN算法非常适用于根据
肠道菌群数据进行疾病预测的应用场景。如Wu等使用了KNN构建2型糖尿病预测
模型。然而正因为KNN算法没有模型训练过程,使其进行样本分类时的计算复
杂度相对较高,而且容易受样本不均衡问题的影响。
157

