大数据处理的关键技术有哪些


大数据处理的关键技术有哪些?

“21世纪最缺的是什么?人才!”。

大数据发展如此之快的今天,大数据工程师已经成为一个新兴职业。

大数据是信息技术,是人和人、人和机器、机器和机器交互的内容特征,是最底层的信息技术,是基本标配。

今天我们就来看看大数据。 

1.HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

2.Hive Facebook 领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。

3.Pig Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4.Cascading/Scalding Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。 

5.Zookeeper 一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。 

6.Oozie 一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7.Azkaban 跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。

8.Tez Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。 

想要学习大数据,建议从应用切入、以点带面,先从一个实际的应用领域需求,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展,这样学习效果就会好很多。

相关阅读 >>

永川携手重庆移动,共建智慧名城和重庆云谷大数据中心

强化大数据审计应用 推进审计信息化建设

中国移动这个大数据中心建设项目落户三明

【“十四五”开局之年抓创新】中国联通:“智慧数”激活大数据应用“神经末梢”

新华社国家重点实验室与中仪英斯泰克、北京大数据研究院签署三方战略合作协议

「ai+大数据」独角兽以萨的蛰伏与荣光

推动数智化转型,打造医疗大数据发展新业态

青藏高原首个大数据中心成国家新型数据中心典型

国网湖南电力发布10项“电力大数据”应用成果

从车流大数据看城市经济发展:这7个成熟城市群对外辐射力最强

更多相关阅读请进入《大数据》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...