大数据处理的关键技术有哪些


大数据处理的关键技术有哪些?

“21世纪最缺的是什么?人才!”。

大数据发展如此之快的今天,大数据工程师已经成为一个新兴职业。

大数据是信息技术,是人和人、人和机器、机器和机器交互的内容特征,是最底层的信息技术,是基本标配。

今天我们就来看看大数据。 

1.HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

2.Hive Facebook 领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。

3.Pig Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4.Cascading/Scalding Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。 

5.Zookeeper 一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。 

6.Oozie 一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7.Azkaban 跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。

8.Tez Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。 

想要学习大数据,建议从应用切入、以点带面,先从一个实际的应用领域需求,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展,这样学习效果就会好很多。

相关阅读 >>

「数字乡村」数字赋能乡村振兴 开远市乡村振兴大数据平台织密致贫返贫防护网

联合攻关大数据安全课题!华云创谷与省部共建公共大数据国家重点实验室签约

大数据开启重大时代转型 香港着力打造“数码港”

重庆大数据智能化咋治理生态环境?

各大app允许用户一键关闭“个性化推荐”后,还会有“大数据杀熟”吗?

算法是个黑匣子,立法管得住“大数据杀熟”吗

青藏高原首个大数据中心成国家新型数据中心典型

成渝地区大数据与人工智能产业职业教育集团成立 推动产教“无缝对接”

省重点项目督导服务可视化场景获评省级大数据创新应用典型场景

国网湖南电力发布10项“电力大数据”应用成果

更多相关阅读请进入《大数据》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...