大数据处理的关键技术有哪些


大数据处理的关键技术有哪些?

“21世纪最缺的是什么?人才!”。

大数据发展如此之快的今天,大数据工程师已经成为一个新兴职业。

大数据是信息技术,是人和人、人和机器、机器和机器交互的内容特征,是最底层的信息技术,是基本标配。

今天我们就来看看大数据。 

1.HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

2.Hive Facebook 领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。

3.Pig Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4.Cascading/Scalding Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。 

5.Zookeeper 一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。 

6.Oozie 一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7.Azkaban 跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。

8.Tez Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。 

想要学习大数据,建议从应用切入、以点带面,先从一个实际的应用领域需求,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展,这样学习效果就会好很多。

相关阅读 >>

用好大数据,助力市场数字化升级

我局“房屋建筑和市政基础设施工程施工图审查线上“多审合一””入选全省大数据创新应用典型案例

大数据看经济活力 各地各行业全力跑出新春“加速度”

大数据大算力推动人工智能走向大模型时代

个人信息保护法11月1日起实施 明确不得大数据杀熟

国内首份!从2023年春节通信大数据看兔年新气象

针对医疗美容的获客方式有哪些,精准大数据靠谱吗?

大数据时代,他在这么做……

省重点项目督导服务可视化场景获评省级大数据创新应用典型场景

瓜子二手车流通大数据:线上异地交易占比升至85

更多相关阅读请进入《大数据》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...