大数据处理的关键技术有哪些


大数据处理的关键技术有哪些?

“21世纪最缺的是什么?人才!”。

大数据发展如此之快的今天,大数据工程师已经成为一个新兴职业。

大数据是信息技术,是人和人、人和机器、机器和机器交互的内容特征,是最底层的信息技术,是基本标配。

今天我们就来看看大数据。 

1.HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

2.Hive Facebook 领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。

3.Pig Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4.Cascading/Scalding Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。 

5.Zookeeper 一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。 

6.Oozie 一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7.Azkaban 跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。

8.Tez Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。 

想要学习大数据,建议从应用切入、以点带面,先从一个实际的应用领域需求,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展,这样学习效果就会好很多。

相关阅读 >>

专利大数据应用系统“深眸”上线

成都打造“西部数都” 大数据发展指数位列中西部第一

用好大数据,助力市场数字化升级

科技战“疫”:大数据发挥大作用

超八成受访者被“杀熟” 大数据强监管在路上

「ai+大数据」独角兽以萨的蛰伏与荣光

大数据与隐私保护孰重? 隐私计算如火如荼

我局“房屋建筑和市政基础设施工程施工图审查线上“多审合一””入选全省大数据创新应用典型案例

云计算大数据基金表现强势 基金经理称行业或迎拐点

推动数智化转型,打造医疗大数据发展新业态

更多相关阅读请进入《大数据》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...