BI大数据平台Hadoop/Spark/Redshift/Hana/hive就业前景优劣比较

悠然自德 · 发表于 2016-5-5 20:56:41

IT界最值得学的skill之一就是SQL，几十年了基本框架不变，哪怕底层从RDBMS变成了Hadoop/Spark这样的分布式平台。

关于就业前景，如果Linux和嵌入式基础比较好的话，考虑Hadoop吧。考个Cloudera或者Hortonworks的证，至少五年之内就业都会有保障。

Hadoop目前的情况好比SQLSERVER 2000或者Oracle 7 的时代，未来5-10年会是数据处理的主力基础设施

Web/Mobile Developer同质化竞争太厉害，没有经验很难在众多竞争者中胜出。传统数据库DBA，抛开经验不说，就业前景在逐渐缩减。BI是很好的方向，但是要求的技能及经验不太一样。

熟悉Linux和Java这两项是Hadoop尤其是Hadoop Developer和Administrator的基础。Data Analyst和Data Scientist又是其它的方向了（SQL/Data Visulization/Machine Learning）。Linux很一般，Java基本一窍不通，就没法走developer这条路。SQL很好，ETL经验丰富，Python过得去，Machine Learning的实践也还不错，所以就比较适合走DA/DS/DE的路子

BI目前主要就ETL，报表这两大块。Mining很少，而且现在这块都是算Data Scientist的工作了

现在Hadoop或者说分布式数据处理平台是处于市场的一个临界点上，相关职位的需求近来一直呈上升趋势，这个时候入场时机会更好。

类似的新技术很多，Spark/Kafka等等，但是目前还不到上升期，就算学了也没机会用。

到目前为止，最牛X的sql引擎绝对是oracle 绝无之一。oracle 的分析函数和类似画excel表格一半的pivot 功能，你要是能深入理解会写这种SQL，可以避免很多时候编写程序自己写复杂逻辑的工作。因为这都是数据库引擎在做，他的内在计算都是优化过的，性能是最好的。

不知道有没有人在研究spark,spark现在确实厉害，spark提供jdbc接口（可以连接所有jdbc支持的数据库，并取数据计算），有内置的sql库，他对sql的编译支持大部分oracle的分析函数（一般功能的sql懒得说了），他支持3种编程语言（python scala java)，他自己就是跑在集群里面，并行运算，比oracle之类的只是一个数据库服务器计算架构上强多了，而且他最牛B的地方是你写一大堆sql他内部编译了之后只执行一次，想想传统的数据库，你要生成临时表，然后对临时表循环做计算，到他这全没了。

技术上来说，大数据太火了，只要你不是经常少量更新，spark,hive结合hbase 你能实现实时查询功能外加高性能数据仓库。

以后我觉得现有的oracle数据库会逐渐被淘汰，oracle只适合做otlp了，价格太贵（1cpu 5万美元），替代产品太多（mysql ,postgre，sqlserver for linux都要出来了）最不看好。尤其是以后什么都是云，非常容易被outsource.

要是喜欢技术，我觉得好好学学spark，他有可能成为未来的标准架构。
Spark的优点有三：其一曰 in memory，这是用来解决Hadoop性能痛点的；其二曰 SparkSQL，这是用来解决分析和查询的。运行在Hadoop上的Hive有多慢就不用说了，即便是优化过的Impala，Drill，Presto等，在某项指标上或会优于Spark SQL，但综合性能还是比不上基于内存的SparkSQL；其三曰 scalable machine learning。和数据打交道的都知道，传统数据库的数据到了一定量后要扩展的话成本不是线性的，而且有上限；Hadoop的出现就是为了解决这个问题的。同样的问题也存在于machine learning上。你要在10T数据上做一个Random Forest Classification，如果不分布式运行的话，先想想有没有这么大内存的主机吧。而machine learning还不像查询，一个count(*) group by只要一次mapreduce就可以实现分布式，算法的分布式比单机难的不是一点半点。目前也只有屈指可数的几个研究机构和公司能做到产业化，这是绝对的黑科技。

至于Spark其它的components，如streaming，dataframe这些，都是为了让其更好用而已。核心优势还是上述那三板斧

在transaction处理上，传统数据库还是有着不可动摇的优势，这是Hadoop/Spark/Redshift/Hana这些新兴平台所不能比拟的。

要学Spark的话，强力推荐Edx上正在进行的课程-U of C Berkerly（Spark的几个创始人都是从那出来的）出品。要求具备一点Python基础，每周需要花5-10个小时左右做作业。

易快网c · 发表于 2016-5-25 08:22:52

謝謝，希望再接再厉.....

天下班长 · 发表于 2017-11-19 04:59:52

无济于事

白面男爵 · 发表于 2020-5-18 09:12:09

越来越卡

安小安 · 发表于 2023-12-5 11:09:33

非同小可

		自动登录	找回密码
密码			1分钟注册发帖

[人工智能AI与大数据] BI大数据平台Hadoop/Spark/Redshift/Hana/hive就业前景优劣比较

浏览过的版块