大数据工程师主要做什么的

2020-06-20 18:36:16 作者: xywy01 来源: 学业无忧网

很多人只听说过大数据或者对大数据只了解点皮毛,比如对大数据发展前景、应用场景、具体工作内容这些专业性更强的内容并不知道,下面给大家全面介绍一下大数据开发工程师是做什么的这方面的内容。

什么是大数据?

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

IBM提出大数据的五大特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据工程师主要做什么的?

大数据工程师主要做什么的?

大数据工程师可以从事对大量数据的采集、清洗、分析、治理、挖掘,并对这些数据加以利用、管理、维护和服务的相关技术工作。

具体的工作内容取决于你工作在数据流的哪一个环节。从数据上游到数据下游,大致可以分为:数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化。

数据采集:

业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

数据清洗:

一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。

数据存储:

清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

数据分析统计:

数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

数据可视化:

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。

大数据工程师待遇如何?

大数据工程师待遇如何?

2020年-2021年,将成为未来20年间大数据及人工智能最佳的产业资本并购整合窗口期,近两年大数据与云计算应用得到了快速发展,产生了超千亿级的市场规模。云计算平台和云计算服务模式成为it行业的热点。这些都是大数据行业不可小视的发展前景。

根据据麦肯锡出具的一份详细分析报告显示,未来大数据或者数据工作者的岗位需求将激增,我国预计两年内大数据的人才缺口也将达到200-300万,制造、医疗、金融、交通等行业,信息化SaaS软件、大数据、人工智能等技术方向都产生了大量人才需求。

人才缺口的加大,带来的将是大数据工资及年薪的增长,根据相关调查显示,2018-2019年薪酬呈上涨趋势,涨幅较2018年偏缓,整体跳槽涨幅在30%上下,其中架构类、算法类、大数据类、系统架构、安全类、物联网等方向涨幅比较大。大数据平均薪资已经超过20000元,年薪30万只是普通水平。

大数据工程师工作岗位职责是什么呢?

1、负责爬虫架构设计和研发;

2、负责爬虫核心搜索策略、算法、数据聚类、重组的设计与开发;

3、负责网络爬虫或数据采集软件的优化改进以及采集规则编写;

4、解决封账号、封IP等采集难点攻克;

5、确保所负责的站点按周期采集及时,全面。