找回密码
 1分钟注册发帖

QQ登录

只需一步,快速开始

[人工智能AI与大数据] BI大数据平台Hadoop/Spark/Redshift/Hana/hive就业前景优劣比较

[复制链接]
悠然自德 发表于 2016-5-5 20:56:41 | 显示全部楼层 |阅读模式
IT界最值得学的skill之一就是SQL,几十年了基本框架不变,哪怕底层从RDBMS变成了Hadoop/Spark这样的分布式平台。

关于就业前景,如果Linux和嵌入式基础比较好的话,考虑Hadoop吧。考个Cloudera或者Hortonworks的证,至少五年之内就业都会有保障。

Hadoop目前的情况好比SQLSERVER 2000或者Oracle 7 的时代,未来5-10年会是数据处理的主力基础设施

Web/Mobile Developer同质化竞争太厉害,没有经验很难在众多竞争者中胜出。传统数据库DBA,抛开经验不说,就业前景在逐渐缩减。BI是很好的方向,但是要求的技能及经验不太一样。

熟悉Linux和Java这两项是Hadoop尤其是Hadoop Developer和Administrator的基础。Data Analyst和Data Scientist又是其它的方向了(SQL/Data Visulization/Machine Learning)。Linux很一般,Java基本一窍不通,就没法走developer这条路。SQL很好,ETL经验丰富,Python过得去,Machine Learning的实践也还不错,所以就比较适合走DA/DS/DE的路子

BI目前主要就ETL,报表这两大块。Mining很少,而且现在这块都是算Data Scientist的工作了

现在Hadoop或者说分布式数据处理平台是处于市场的一个临界点上,相关职位的需求近来一直呈上升趋势,这个时候入场时机会更好。

类似的新技术很多,Spark/Kafka等等,但是目前还不到上升期,就算学了也没机会用。

到目前为止,最牛X的sql引擎绝对是oracle 绝无之一。oracle 的分析函数和类似画excel表格一半的pivot 功能,你要是能深入理解会写这种SQL,可以避免很多时候编写程序自己写复杂逻辑的工作。因为这都是数据库引擎在做,他的内在计算都是优化过的,性能是最好的。

不知道有没有人在研究spark,spark现在确实厉害,spark提供jdbc接口(可以连接所有jdbc支持的数据库,并取数据计算),有内置的sql库,他对sql的编译支持大部分oracle的分析函数(一般功能的sql懒得说了),他支持3种编程语言(python scala java),他自己就是跑在集群里面,并行运算,比oracle之类的只是一个数据库服务器计算架构上强多了,而且他最牛B的地方是你写一大堆sql他内部编译了之后只执行一次,想想传统的数据库,你要生成临时表,然后对临时表循环做计算,到他这全没了。

技术上来说,大数据太火了,只要你不是经常少量更新,spark,hive结合hbase 你能实现实时查询功能外加高性能数据仓库。

以后我觉得现有的oracle数据库会逐渐被淘汰,oracle只适合做otlp了,价格太贵(1cpu 5万美元),替代产品太多(mysql ,postgre,sqlserver for linux都要出来了)最不看好。尤其是以后什么都是云,非常容易被outsource.

要是喜欢技术,我觉得好好学学spark,他有可能成为未来的标准架构。
Spark的优点有三:其一曰 in memory,这是用来解决Hadoop性能痛点的;其二曰 SparkSQL,这是用来解决分析和查询的。运行在Hadoop上的Hive有多慢就不用说了,即便是优化过的Impala,Drill,Presto等,在某项指标上或会优于Spark SQL,但综合性能还是比不上基于内存的SparkSQL;其三曰 scalable machine learning。和数据打交道的都知道,传统数据库的数据到了一定量后要扩展的话成本不是线性的,而且有上限;Hadoop的出现就是为了解决这个问题的。同样的问题也存在于machine learning上。你要在10T数据上做一个Random Forest Classification,如果不分布式运行的话,先想想有没有这么大内存的主机吧。而machine learning还不像查询,一个count(*) group by只要一次mapreduce就可以实现分布式,算法的分布式比单机难的不是一点半点。目前也只有屈指可数的几个研究机构和公司能做到产业化,这是绝对的黑科技。

至于Spark其它的components,如streaming,dataframe这些,都是为了让其更好用而已。核心优势还是上述那三板斧

在transaction处理上,传统数据库还是有着不可动摇的优势,这是Hadoop/Spark/Redshift/Hana这些新兴平台所不能比拟的。

要学Spark的话,强力推荐Edx上正在进行的课程-U of C Berkerly(Spark的几个创始人都是从那出来的)出品。要求具备一点Python基础,每周需要花5-10个小时左右做作业。


回复

使用道具 举报

易快网c 发表于 2016-5-25 08:22:52 | 显示全部楼层
謝謝,希望再接再厉.....
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 1分钟注册发帖

本版积分规则

重要声明:“百事牛www.BestKnew.com”的信息均由个人用户发布,并以即时上载留言的方式运作,“百事牛www.BestKnew.com”及其运营公司对所有留言的合法性、真实性、完整性及立场等,不负任何法律责任。而一切留言之言论只代表留言者个人意见,并非本网站之立场。由于本网受到“即时上载留言”运作方式所规限,故不能完全监察所有留言,若读者发现有留言出现问题,请联络我们。

Archiver|小黑屋|百事牛

GMT+8, 2024-12-22 09:57 , Processed in 0.024304 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表