大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
Java核心 | |
课程大纲 | 课程内容 |
Java基础入门 | 1.搭建Java开发环境, 2.变量的定义, 3.数据类型与运算符, |
4.循环结构与选择结构, 5.数组, 6.项目实战:吃货联盟订餐系统 | |
Java面向对象 | 1.类和对象, 2.面向对象的三大特性:封装、继承、多态, 3.面向对象思想程序设计, 4.抽象类和抽象方法, |
5.接口, 6.异常, 7.项目实战:QuickHit, 8.正则表达式, 9.开发工具:Maven、Git、IDEA | |
Java高级API | 1.集合, 2.实用类和泛型, 3.Java I/O与序列化 4.Java反射机制, 5.注解的原理, 6.多线程编程, 7.网络编程 |
8.XML、JSON解析的方法, 9.常用设计模式, 10.项目实战:超市会员管理系统, 11.项目实战:嗖嗖移动业务大厅 | |
MySQ | 1.MySQL安装与SQLyog的使用, 2.DDL语句:建库、建表、改表、删除表, 3.DML语句:添加、删除、修改, 4.DQL语句:查询 |
5.MySQL高阶语法:连接查询、排序、分页、子查询、聚合函数、分组查询, 6.MySQL事务(ACID原则、事务实现) | |
7.MySQL视图, 8.MySQL索引, 9.MySQL数据导入导出, 10.MySQL进阶训练" | |
Java Web | 1.HTML5基础, 2.JS基础, 3.Tomcat, 4.JSP, 5.JDBC编程, 6.Servlet, 7.项目实战:嗖嗖移动业务大厅" |
Linux安全 | Firewalld防火墙, iptables防火墙(一), iptables防火墙(二) |
项目实战 | Shell脚本一键完成初创公司小型项目 |
Hadoop | |
课程大纲 | 课程内容 |
Linux编程 | 1.Linux VM 环境搭建配置、 2.基本Linux命令、 3.SSH安装配置、 |
4.Linux环境安装JDK和MySQL、 5.Linux Shell编程 | |
ELK | 1.ELK综述, 2.ELK安装与配置, 3.数据清洗、处理和导入– Logstash, 4.数据存储与管理 |
5.数据搜索与分析、 6.restful API调用ES、 7.项目实战:招聘信息全文检索平台 | |
HBase | 1.NoSQL综述、 2.HBase的基本概念、 3.HBase架构、数据模型、 4.HBase数据导入、 5.HBase数据查询 |
6.使用Shell操作HBase、 7.HBase API与数据读取优化、 8.Phoenix的使用、 9.Hive操作HBase表、 10.HBase高级操作 | |
Sqoop | 1.Sqoop介绍、 2.Sqoop常用命令使用、 3.使用Sqoop完成从RDB到HDFS的数据迁移 |
4.使用Sqoop完成从RDB到Hive的数据迁移、 5.使用Sqoop完成从Hive到RDB的数据迁移、 6.Sqoop全量数据及增量数据导入 | |
离线项目实战 | 项目实战:电子商务消费行为分析 |
Spark | |
课程大纲 | 课程内容 |
Scala编程 | 1.Scala开发环境设置、 2.变量与方法、 3.数据类型与集合、 4.Scala函数编写、 5.类和特征以及对象 |
6.Scala高级、 7.Scala(Regular Expression)正则表达式、 8.ScalaAPI及使用、 9.Scala中的Java集成使用、 10.Scala异常处理" | |
Spark Core | 1.Spark概述及架构、 2.RDD 概述、 3.RDD Transformation&Action、 4.数据分区(Partition)与Shuffle、 5.RDD 缓存与检查点、 6.Spark Shell、 7.Spark RDD应用 |
Spark SQL | 1.Spark SQL API介绍、 2.Spark SQL优化器、 3.DataFrame与DataSet、 4.Spark SQL集成Hive、 5.Spark SQL Shell编程 |
Spark GraphX | 1、Spark GraphX 数据模型及API、 2、图形数据分析管道 - 案例介绍、 3、项目练习:航班飞行网图分析 |
SparkStreaming实时处理 | 1.Flume日志收集工具、 2.Kafka消息平台、 3.Spark Streaming处理实时数据" |
Kuebernetes网络管理, Kuebernetes资源控制管理, Kuebernetes+EFK日志收集 | |
Kuebernetes高可用部署, Kuebernetes集群问题定位与分析, 云原生架构(K8S+Docker集群), 大觅网之环境部署 | |
Python | |
课程大纲 | 课程内容 |
Python编程 | 1、Python环境搭建及Python数据类型、 2、Python基础及函数、 3、NumPy、Pandas及Matplotlib库 |
Python数据爬取 | 1.Python实施Web数据爬取的基本原理和方法、 2.使用LXML Python库进行Web数据爬取、 3.Scrapy进行Web数据爬取、 4.项目实战:爬取招聘网站数据 |
PySpark | 1.PySpark架构介绍、 2.Anaconda/Jupyter Notebook使用、 3.PySpark的集成及使用 |
构建离线数据平台 | |
课程大纲 | 课程内容 |
电商数仓项目实战 | 1.数据仓库项目分析、 2.数据仓库分层架构、 3.数据仓库设计规范、 4.数据仓库建模及常用模型、 5.数据仓库项目流程、 6.使用Hive构建电商数据仓库项目 |
用户兴趣取向分析 | 1.项目分析、 2.Kafka与Flume在项目中的使用、 3.使用Hive进行ETL处理、 4.SpringBoot框架打FatJar的方法,以及通过CommandLineRunner作为程序入口的方法 |
5.PySpark完成机器学习、 6.Oozie完成工作流调度、 7.Spark Streaming实现实时预测、 8.Tableau可视化开发 | |
9.Cassandra/Redis/MongoDB在项目中的应用、 10.NiFi的使用、 11.用户兴趣取向分析项目实战开发 | |
教育平台大数据分析 | 1.项目介绍及数据格式定义、 2.Apache Kafka开发、 3.Flume采集数据、 4.Hive数据分析及处理、 5.Spark Streaming实现数据处理" |
实时流处理平台 | |
课程大纲 | 课程内容 |
股票数据流实时分析 | 1.项目介绍及数据格式定义、2.Apache Kafka开发(连接器与流处理)、 3.基于Confluent的股票元数据管理及应用、 4.Flink流数据处理及实时分析。 |
5.Flink实施股票的实时分析、 6.Grafana/Zeppelin数据可视化、 7.股票数据扒取项目开发" | |
机器学习 | |
课程大纲 | 课程内容 |
机器学习算法 | 1.机器学习原理入门、 2.机器学习数据挖掘流程、 3.机器学习常用算法原理、 4.SVM分类算法、 5.K-Means聚类算法 |
6.逻辑回归算法 7.朴素贝叶斯算法 8.决策树算法 9.机器学习评价指标 | |
Spark实现机器学习 | 1.机器学习原理入门、 2.机器学习数据挖掘流程、 3.机器学习常用算法原理、 4.SVM分类算法。 |
5.K-Means聚类算法、 6.逻辑回归算法、 7.朴素贝叶斯算法、 8.决策树算法、 9.机器学习评价指标。 | |
Python实现机器学习 | 1.Python机器学习数据结构及流程、 2.分类(Classification)算法模型实现、 3.聚类(Clustering)算法模型实现 |
4.推荐(Recommendation)模型实现、 5.sklearn库的使用、 6.机器学习项目实战之图像分析、 7.机器学习项目实战之房价预测 | |
机器学习项目实战云音乐推荐系统 | 1.推荐系统项目整体介绍、 2.使用机器学习实现推荐系统、 3.协同过滤算法、 4.逻辑回归算法在推荐系统中的应用 |
5.关联规则算法、 6.推荐系统项目流程详解及实现、 7.Redis基础及使用、 8.使用Redis实现项目数据查询接口 | |
大数据系统管理优化 | |
课程大纲 | 课程内容 |
提升系统的高可靠性 (High Availability) | 1.安装Ambari Server/Agent, 2.HDFS HA高可用原理及实现, 3.YRAN HA高可用原理及实现, 4.Hive HA高可用原理及实现, |
提升系统的安全性 - 认证(Authentication) | 1.规则用户管理 , 2.Kerberos认证, 3.用户名(User Name)及密码(Password)认证, 4.认证密匙(Tokens), 5.身份扮演(Impersonation), |
授权(Authorization)及审计(Auditing) | 1.HDFS授权, 2.HDFS扩展使用控制(Extended ACL), 3.Apache Ranger介绍和使用, |
4.HDFS,YARN及MapReduce审计日志(logs), 5.Hive审计日志(logs), 6.Apache Ranger审计框架(Framework)介绍, 7.日志分析, | |
数据保护 | 1.数据加密(Data Encryption), 2.加密(Encryption)及钥匙管理(Key Management), 3.HDFS数据加密, 4.Apache Ranger KMS介绍和使用。 |
阿里云平台 | |
课程大纲 | 课程内容 |
阿里云平台 | 1.阿里云平台概述, 2.使用阿里云平台 |
实验环境搭建 | 1.使用阿里云平台进行实验环境搭建, 2.实验环境的使用流程" |
阿里云项目训练 | 1.阿里云平台项目讲解, 2.阿里云平台项目训练 |
阿里云认证指导 | 阿里云认证课程ACA指导, 阿里云认证课程ACP指导 |
就业项目 | |
课程大纲 | 课程内容 |
就业项目 | 1.Spark试题推荐系统, 2.物流数据仓库平台, 3.银行账户实时风控系统 ...... |
CC服务 | |
课程大纲 | 课程内容 |
CC服务专题 | 机器学习进阶专题, 大数据可视化专题, 人工智能专题, 数据挖掘算法专题, |
大数据前沿技术应用专题, 面试与工作经验指导, 试用期/跳槽期技术支持, 实际工作问题解决方案, 职业发展规划 |
工作1-3年后,可以胜任大数据开发师,年薪18W+左右
工作2-3年,可以胜任高级大数据开发工程师,年薪28W+左右
工作5-8年,可以胜任高级大数据开发工程师,年薪40W+左右
工作8-10年,可以胜任高级大数据开发工程师,年薪55W+左右
其实笼统地说大数据原理和基础都在数学这边,当然有很多偏应用和软件使用的技术,例如“深度学习调参”等,这些报个培训速成班就能学会的技术含量不那么高的东西,不在讨论范围内。
中国拥有世界上五分之一的人口,未来中国必然成为大数据重要市场,且中国正处于快速发展的上升期,产生的数据将是巨大的,巨大的数据推动大数据的发展,必然增加对大数据人才的需求。
能不能学好大数据主要看个人兴趣爱好。与其说女生适不适合学大数据,还不如说女生到底想不想学大数据,光想不付出行动,也学不好大数据技术,所以女生能不能学好大数据,当然得因人而言。
学大数据对于英语能力要求不是太高,有一定英语水平当然好。对于没有英语基础的人也不用担心,虽然编程用的语言虽然是英语,但只是特定的单词,并没有语法,代码写多了也就熟悉了。