随着数据生成、采集方式的变化,我们收集到的数据越来越多,对这些数据进行分析所需的运算量早已远远超出了单台计算机处理能力。伴随而来的便是存储、分析环境等的变化与更新。文本针对想了解大数据分析环境的订阅用户,对相关内容进行了总结。
1、数据与存储环境
1.1、数据量的大小与过去不可同日而语
1.2、并行分布式存储结构
由于数据量的暴增,势必使得保存数据的方式发生改变。简单来说,分布式存储就是利用分布式存储标准,将众多计算机中的存储介质,主要是硬盘,组成一个逻辑上的大规模存储空间。此逻辑空间需要达到一定的数据吞吐量,且兼顾数据的安全性。
2、常用大数据开发框架
分布加并行是大数据分析的核心理念,基于此,诞生了众多的数据分析框架,其中最主流的包括MapReduce、Storm,以及Spark等
3、分析语言
主要包括Java、Python等传统开发语言,也包含最近异军突起的R语言,还有基于批处理脚本的Pig,以及用于Hive数据仓库的HQL等,它们共同的特点就是可以通过编程有效、高效的完成数据分析任务。
随着数据的骤增以及分析技术的发展,过去只在实验室进行的某些工作也成为了业界常见的分析目标,如大规模自然语言处理与语义理解、海量图像识别等。在今后我们将逐步对相关话题进行详细的讨论。
(文章来源:格物课堂微信公众号)
2022-2023 Copyright © 深圳市意行科技开发有限公司 - All Rights Reserved. 深圳市南山区学苑大道1227号 粤ICP备17013574号