大数据

最易懂的大数据故事

近年来,关于大数据的话题长盛不衰,在我们3月6日的文章《白话机器学习相关基本概念》中对大数据进行了通俗的讲解,但是怎么才能把大数据利用起来呢?

数据量很小时的处理方式

举个生活中的🌰:你爱读书,而且可以轻轻松松的在几天读完一本书(不错,是个爱学习的好孩子👍)。

有一天你开始做课题了,这时一本书可能就不够了,就从图书馆借了十本书。你有一套自己的学习方法,可以把资料中的信息清晰、整齐的整理出来,然后记成笔记,你笔记的内容就是这十本书的精华,现在你已经掌握了这些精华的内容了。

在上面的这个🌰中,书就是数据,但是数据放在那里是没有用的,因此要去学习,十本书一起读可不是件轻松的事情,你肯定有一套汇总资料方法来保证即不漏掉重要内容,又保证相关的内容能合理的在笔记中汇总到一起去。你的这个汇总资料的方法就相当于数据分析中的算法,而你整理出来并以笔记形式保存的精华内容就相当于我们从数据中的到的信息,一般以模型、规则等形式表示。

数据量大了该怎么办呢?

后来,你又接了一个大大的课题,这次需要更多的资料,最终你搜集了一万本书(你是怎么做到的😖),怎么办呀,一个房间放不下了,你就找了好多房间,每个房间放一部分。房间就相当于我们的存储设备,当数据量非常大时,就需要把数据分别存储在不同的设备上,这种方式就叫做分布式存储

前面说过了,数据放在那里是没有用处的,必须要整理它们。但是,这么多的资料你一个人是无能为力了,因此,你就找了好多朋友来帮你,每个房间派一个人,大家同时整理资料。这里,你的朋友就相当于计算机了,当数据量很大的时候,我们就用多台计算机来同时进行处理,这种方式就叫做并行处理。当然,一台计算机是可以同时存储和处理数据的,我们的🌰中把数据的存储(房子)和处理(人)分开了,只是为了解释起来方便。

现在我们知道了,大数据分析的主要方式就是分布式并行处理

好像还是缺点什么,应该是算法的问题:现在那么多人同时处理资料,即使是他们整理的方式都一样,但是怎么汇总所有的内容呢?因此,我们就要想种方法了,保证整理资料的过程又快又好,有条不紊!我们想到的这种方法就是分布式算法咯。方法有优有劣,好的方法会事半功倍,因此说算法是很重要的。

关于数据

是不是有了数据,然后用分布式并行的方式跑算法就可以了?不一定哟,比如说,你的课题是关于神州飞船的,但是你搜集的资料是动物养殖的(你是什么眼神呀😒),即使有再多的资料,你找再多的朋友,可能得到的结果也是没有用的。为什么呢?本来你找资料是为你的课题服务的,这就是需求,但是,你资料的内容却与需求不付,因此再好的算法,再好的设备也是没有用滴!

记住了!数据应该与需求相匹配。在数据分析领域有一句俗话:好的数据未必有好的结果,但垃圾的数据一定是垃圾的结果!

好了,今天就到了这里,我们以后继续👋

识别二维码,关注“格物课堂”微信公众号

2022-2023 Copyright © 深圳市意行科技开发有限公司 - All Rights Reserved.
深圳市南山区学苑大道1227号 
粤ICP备17013574号