大数据

大数据分析的流程与步骤

总体来说,数据分析的应用主要包含以下几个步骤:

1、数据的获取:目前来说主要是来自企业自有数据,对互联网公司来说,主要就是数据库信息和用户使用日志。

2、数据的存储:这里指的是在数据分析平台上的存储,目前主要以HDFS为主。

3、数据的清洗:将数据库以及日志信息提取到分析平台的存储系统中后,理论上是可以进行数据分析工作的,但是在实际分析工作中,还需要对这些数据进行预处理,主要的就是数据清洗工作,比如:空值的处理、不一致数据的处理等。

4、数据的分析:包括建模、模型评估,以及使用模型进行分析工作等。

其中数据分析工作主要包括:

  • 数据收集与知识发现:包括数据的自动抓取,并从中梳理出可用的有效信息,或者是将数据自动的按照一定规范进行整理。
  • 实时数据分析:对于实时性要求较高的需求,主要是流式数据分析,要求对数据源发送来的数据进行实时的清洗、分析。
  • 预测分析:基于收集到的数据、训练模型并对其进行优化。在模型通过验证后,基于模型的预测结果来指导业务的进行。
  • 数据可视化:以用户友好的方式对分析结果进行展示,目前来说,主要是将报表以各种图标的方式展示出来。

 

识别二维码,关注“格物课堂”微信公众号

2022-2023 Copyright © 深圳市意行科技开发有限公司 - All Rights Reserved.
深圳市南山区学苑大道1227号 
粤ICP备17013574号