Page 174 - 基于人工智能的图像识别技术研究

P. 174

基于人工智能的图像识别技术研究
Research on Image Recognition Technology Based on Artificial Intelligence

类内差异小的现象，使得分类更加困难。

（2）多标签图像分类
在现实生活中，图像往往包含多个类别的对象。多标签图像分类可以同时判
断图像中是否包含这些内容，从而更好地解决现实生活中的问题。单标签图像分
类是指每幅图像对应一个类别标签。根据目标分类的个数，单标签图像分类可分

为两类和多类。多标签图像分类主要采用图像识别技术中的多标签决策树算法。
该算法利用决策树技术处理多标签数据，基于多标签熵的信息增益准则递归构造
决策树。树结构包括非叶节点、分支和叶节点。采用决策树模型进行分类时，特

征属性由非叶节点表示，特征属性在一定范围内的输出由非叶节点之间的分支表
示，类别由叶节点存储。
其计算思想是：首先计算每个特征的信息增益，选择增益最大的特征将样本
分成两个子集，进行递归直至满足停止条件，构造决策树。对于新的测试样本，

沿着根节点到叶节点遍历一条路径，并计算叶节点样本子集中每个标签为0和1的
概率。如果概率超过0.5，则包括标签。在遍历到不同叶节点的所有路径之后，
可以确定所有标签信息。目前，图像分类的任务在很大程度上依赖于监督学习，

即每个样本都有相应的标签。通过深层神经网络，我们可以不断学习每个标签对
应的特征，最终实现分类。在这种情况下，数据集的容量和标签的质量往往对模
型的性能起着决定性的作用。

（3）无监督图像分类
如果将神经网络视为在轨道上运行的F1赛车，则数据集是为其持续提供动力
的能量。如果没有高质量的数据集作为基础，就无法驱动神经网络进行训练。高

质量的数据集自然会给注释带来困难。据统计，在一幅图像中标注一个对象类别
大约需要2到3秒钟。然而，在实际应用中，数据集往往包含数万幅图像，因此整
个标注过程将变得异常漫长。特别是在细粒度分类和多标签分类任务中，标签代
价随着目标数目和识别难度的增加呈指数增长。
无监督图像分类主要采用PCA和t-SNE算法。PCA（Principal Component

Analysis）算法是机器学习领域中一种典型的旋转数据集方法，其旋转特征不具
有统计相关性。通过数据集的旋转，我们可以根据新特征的重要性构造子集来

解释数据，从而构造新的数据集表示。作为近年来广泛应用的数据分析算法，
t-SNE的主要思想是寻找数据的二维表示，并尽可能保持数据点之间的距离，然

166

169 170 171 172 173 174 175 176 177 178 179