通俗地说,机器学习就是从大数据发现知识的一类算法。
传统的数据分析技术主要是从数据库中获取数据,并使用一定的统计方法(多采用sql语句)来对数据进行汇总,并将分析结果提交给管理人员用于决策支持等工作。
随着科技的发展,可分析数据的来源早已不局限于传统数据库中的格式化数据,更多的是半结构化和非结构化数据,如互联网领域每天几十亿个pv的日志、金融领域每天几亿笔交易数据;人们通过智能设备生成的图像、视频、音频;此外,传感器的大量使用使得机器可以自动持续记录侦测到的数据等;所有这些,使得数据分析的目标不仅结构更加复杂,而且数据的容量也呈爆炸式增长。
如何从这体量巨大、结构繁多的数据中发掘出其内部蕴含的模式与规律,并最大化数据的价值是数据分析的最直接目标。但是,在如此海量的数据面前,由于无法在可接受的时间内获得分析结果,使得传统的基于统计方法不再被视为有效。机器学习方法被加入到了数据分析的工具箱。
从广义上来说,机器学习是一类算法,它使得计算机具备自我学习的能力。但是从实用的角度出发,机器学习可以背看作是基于已有的数据,通过训练的到相应的模型,然后使用模型进行预测的一种方法。从这个角度出发,可以把机器学习研究的目标看作是如何使用计算机模拟和实现人类获取知识的过程,从而提升算法处理问题的能力,终极目标是从数据中获取知识。
简单的说,就是通过机器学习算法,让计算机自动高效地对海量的数据(大数据)进行分析,并从中获取信息。也就是说,大数据相当于矿石,通过机器学习技术,可以从大数据(矿石)中获取到知识(提炼出金子)。
机器学习不仅仅可以用于大数据,诸如机器视觉、语音识别、自然语言处理,以及当前流行的深度学习等领域,机器学习都是主力。在后面的推送中会逐步涉及到这些内容。
(本站原创,转载请注明出处:http://www.gewuketang.com/)