技术博客

白话机器学习相关基本概念

机器学习、大数据、人工智能等是目前IT领域最流行的词汇;对大多数人来说,这些概念都显得比较神秘。在此,我们用最通俗的语言来对相关的基本概念进行讲解,不求学术上的严谨,只求大多数人能理解。

  • 算法:通俗来说,就是解决问题的方法。
  • 机器学习:通过特定的算法使得计算机可以通过已有的数据来进行学习,并能自动的从数据中找出某些规律。这些规律可以指导我们做出适当的决策或者给我们的生活带来便利。
  • 人工智能:指计算机通过传感器(摄像机、麦克风设备等都可以看作是最常见的传感器)感知周围环境,并且能做出相应反应的行为。人工智能一般都需要机器学习算法的支持。
  • 大数据:非常大的数据集合,包括文本、视频、音频、图片、数据库记录、各种日志和传感器采集的信息等。这些数据集的体量极大,常规的数据分析软件已经无法在可接受的时间内完成对此类数据的分析。大数据的最大特点是:量级大、数据类型多、数据产生的速度非常快。
  • 数据清洗:数据一般是无法直接用于分析的,因为数据中通常都包含错误的、重复的数据,还包括空值(本来应该有的数据却没有,比如你的体检报告中没有记录下你的体重)等,这些都会严重的影响到分析的结果,因此需要对此类数据进行处理,这个过程就是数据清洗。完成数据清洗的工作后,便可根据业务需求用某些机器学习算法来对数据进行处理了。

机器学习算法通常包括分类算法、聚类算法、回归算法以及关联规则等。还是大白话,用例子来解释咯:

  • 分类算法:我们有很多猫猫狗狗的照片,然后在每张照片上都注明是狗还是猫,并通过一定的方法输入到计算机中,让计算机自己学习。计算机完成学习后,你再拿一张计算机没见过的照片出来,它就能分辨出照片上是狗还是猫了。这种根据已知样本(照片中的动物)以及类标(狗、猫)来进行学习的算法就是分类算法。
  • 聚类算法:你又拿了很多狗狗和鸟类的照片,这次不告诉它照片上是狗还是鸟,而是告诉他照片中动物的特征,比如几条腿、有没有翅膀、毛发特征、口的形状等。在计算机完成学习后,你拿出一张新的照片,把照片中动物的特征告诉计算机,虽然不知道是狗还是鸟,但是计算机会自动的把照片划分到正确的类别里面。这种根据样本(照片中的动物)以及特征(动物腿的数量等都算是特征)来自动对样本进行划分的算法就是聚类算法。
  • 回归算法:丈母娘在推动房价方面贡献不小,你想买房了,但是房价和房屋的面积、房间数有没有关系呢?你猜测房价于面积、房间数的关系可能大致满足一个公式:房价=a x 面积 + b x 房间数 + c,其中a、b、c都是一个具体的数字,c是为了估算准确而增加的。你可以搜集很多样本,具体包括:房价、房屋面积、房间数,然后根据这些数据,让计算机去计算参数(即a、b、c)的过程就是回归分析。然后,你在去中介那里之前就可以根据房屋的面积、房间数等先估算一个大致的价格了,“哎哟,不错哟”!
  • 关联规则:去超市时我们一般都买很多件商品,超市为了提高销售量,就分析顾客倾向于一起购买哪些产品,比如购买了牛奶的顾客可能通常还会购买面包。这样超市的管理者就可以决定是否以套装的方式来对类似产品进行捆绑销售,比如牛奶面包一起买打95折;或者把牛奶和面包摆放在一起,这样顾客买了面包或者牛奶后很可能会购买另外一件。这种分析两个变量(在本例中的变量是两个具体的商品:面包、牛奶)间是否具有某种关联性的算法就是关联分析,而用特定的方法来对这种关联进行描述就是一条关联规则。

还有很多其它类型的算法,如推荐系统、神经网络等,在今后我们会逐步为您进行介绍。

扫描二维码,关注“格物课堂”微信公众号

2022-2023 Copyright © 深圳市意行科技开发有限公司 - All Rights Reserved.
深圳市南山区学苑大道1227号 
粤ICP备17013574号