Page 129 - 计算机应用软件开发技术研究
P. 129
第四章 大数据与机器学习
会(CCF)大数据专家委员会上通过数百位大数据相关领域学者和技术专家投票
推选出的“2015 年大数据十大热点技术与发展趋势”中,结合机器学习等智能
计算技术的大数据分析技术被推选为大数据领域第一大研究热点和发展趋势。
四、大数据时代机器学习的发展趋势
(一)大数据时代和传统时代的机器学习
业界对大数据的特点进行了系统化归纳,由“4V”组成:数据量大
(volume)、种类繁多(variety)、数据价值密度低(value)、实时处理数据
(velocity)。正是因为上述的四个特点,大数据时代下的机器学习才更值得研
究。当前,大数据时代成为一个热门话题,所谓的“大数据”指的是数据繁多复
杂、自然产生没有规律以及不够精准的数据。大数据带给机器学习的难度不仅仅
表现在数据量大而导致的计算困难,还因为需要从不同的地方获取不同的数据,
由于这些数据都散乱地分布在不同的地方,而且数据与数据间还会有着某些关
联,可是也不能满足所有的条件,而且由于数据比较分散,我们无法将数据进行
统一整理学习。传统的机器在学习理论知识和推算方法的时候都需要保证数据的
独立性,一旦这个条件无法满足,机器学习模型和计算能力就无法发挥用处。大
数据除了给机器学习带来计算方法上的问题之外,也会给机器学习带来机会。当
今社会,是处处都彰显大数据信息的时代,一旦某个区域的信息量过大,数据空
间就会变得密密麻麻的,如果将这些信息进行分类,就会得到有价值的信息。
(二)常见的机器学习技术
受到信息化社会的影响,人类将如何实现机器学习,确保学习的科学性和合
理性作为首要目标,于是相关技术人员需要合理应用技术,加强机器学习手段,
对机器学习有着更加明确的认知。
1.监督
监督学习主要是以提前设定的学习要求为基础,如数据按照精准度分类,
避免数据出入较大。针对机器学习在学习模型时候的相关参数数据,相关人员可
以合理地使用科学手段,加上合理的计算方法进行调整,最后得到一个比较好的
模型。在此基础上,对数据比较新鲜的案例进行标记分类,进一步作出科学的判
断,从而计算出标记内的概率分布。一般来说,模型学习主要分为:贝叶斯分类
器、决策树、逻辑思维回归、神经网络以及支持向量机等。因此,在整个学习的
·117·

