课程模块 技术内容
Java商业应用开发实战
【Java基础阶段 】(10天) 
开学典礼     一群有梦想的人共同开启航程
Linux基础与
Java开发环境
1. Linux安装; 2. Linux常用命令; 3. vim使用 4. Linux软件安装/卸载;5. IDEA认
识; 6. IDEA开发环境搭建; 7. IDEA创建工程、编译工程、运行程序;
8. java 跨平台的原理,jdk/jvm/jre; 9. java开发环境,和环境变量的配置;
Java的语法强化 1. 标识符; 2. 常量; 3. 变量; 4. 进制 与进制转换; 5. 运算符;
6. Scanner 类的简单用法; 7. 流程控制语句(顺序,选择);
控制结构和函数 1. while 循环; 2. do while 循环; 3. for 循环; 4. break continue;
5. 函数;6. 函数的重载;
数组 1. 数组的定义; 2. 内存结构(堆内存,栈内存); 3. 数组的特性;
4. 数组的遍历; 5. 数组的排序; 7. 数组的copy; 8. 二维数组;
Java面向对象-基础 1. 面象对象的概念; 2. 类与对象; 3. 对象的使用与内存空间;
4. 面象对象的封装性; 5. 匿名对象; 6. 构造函数; 7. this关键字;
8. static关键字
Java面向对象-高级 1. 对象做为参数传递(值传递,地址传递); 2. static 关键字; 3. 理解 main 函数;
4. 静态函数工具类; 5. 静态代码块; 6. 类的加载和执行过程详解;
7. 设计模式之单例模式;
继承 1. 继承; 2. super关键字; 3. 构造方法的调用顺序; 4. 重写;
5. 子类的实例化过程; 6. final 关键字;
抽象类和接口 1. 对象上转型,下转型; 2. instanceof 关键字; 3. 方法的重写 ;
4. 对象的比较; 5. 对象的克隆; 6. 抽象类; 7. 接口;
包和访问权限,异常处理 1. classpath; 2. 包的定义和引入; 3. 访问访权限; 4. jar包,war包和 ear包;
5. eclipse中包的生成和引用; 6. 异常的概念; 7. try catch 语句;
8. throws 关键字;9. throw 关键字 ; 10. 自定义异常; 11. 处理多个异常; 12.
finally 语句;
字符串和包装类 1. String 类; 2. 字符串的比较; 3. String 类常见操作;
4. StringBuffer 和 StringBuilder ; 5. 包装类;
集合基础 1. 认识集合框架;
2. Collection 接口;
· ArrayList的添加类操作;
· ArrayList的删除类操作;
· ArrayList的判断类操作;
· ArrayList的查询类操作;
· Iterator 接口;
3. List接口;
· List集合的特有特性;
· listIterator;
· 在list集合中添加对象;
· Vector 和 Enumeration接口;
· LinkedList;
集合高级 1. Set 集合;
2. Set 集合的相等判断;
3. TreeSet;
3.1. TreeSet的自动排序;
3.2. reeSet 通过实现 Comparable
接口进行排序;
3.3. TreeSet 通过自定义比较器排序;
4. 泛型;
4.1. 自定义泛型类;
4.2. 泛型方法;
4.3 . 泛型接口;
4.4. 泛型限定;
5. Map 集合简介;
6. Map 集合的遍历;
集合工具类和
经典API
1. Collections类; 2. Arrays类; 3. 增强for; 4. 可变参数数组; 5. System类; 6.
Runtime类; 7. Data类 和 SimpleDateFormat类; 8. Calendaro类;
9. Math 类 ; 10. Random 类;
线程基础 1. 线程的概念; 2. 创建多线程程序; 3. 用 Thread类创建线程; 4. 线程的状态;
5. 售票程序; 6. 使用Runable接口实现多线程; 7. 售票程序中的线程问题;
8. 线程同步 synchronized; 9. 同步函数; 10. 死锁;
线程高级 1. 生产者消费者的问题; 2. 线程间的通信 ; 3. 生产者消费者程序的优化;
4. 线程的终止;5. 后台线程; 6. concurrent.locks.Lock 类;
IO与Java8新特性 1. 认识IO; 2. 字符流 - FileWriter ; 3. 标准的IO异常处理;
4. 字符流 - FileReader;5. 缓冲流和饰模式; 6. 字节流概述;
7. 用FileOutputStream 和FileInputStream 读写文件;
8. 转换流 InputStreamReader , OutputStreamWriter;
1. Lambda表达式; 2. 函数式接口 ; 3. 内置函数式接口 ; 4. Streams ;
5. 日期时间API ;6. Annotations;
常用设计模式 1. 单体设计模式;2. 工厂设计模式;3. 观察者设计模式;4. 装饰器设计模式;
File类与
Java虚拟机原理
1. 认识File 类; 2. File 类常用操作; 3. File 类获取文件信息类操作;
4. 递归操作文件目录; 5. Properties 类详解; 6. java 中的序列化;
7. Serializable 接口和 Externalizable 接口; 8. serialVersionUID;
9. java体系结构; 10. 类加载机制; 11. 自动内存管理机制;
12. 垃圾收集器与内存分配策略; 13. 类型的生命周期; 14 java的Class文件;
网络高级编程 1. 网络编程的基础;
1.1. 网络协议;
1.2. tcp /ip;
1.3. IP地址;
1.4. Port(端口号);
2. UDP/Tcp;
3. OSI参考模型;
4. 套接字 Socket 简介;
5. UDP 网络程序;
5.1. InetAddress 类;
5.2. UDP发送和接收;
6. 多线程聊天室程序;
字符编码 1 ASII; 2. GB2312和GBK;3. 本地字符集; 4. Unicode编码; 5. UTF-8;
6. UTF-8和unicode编码之间的转换规则;7. UTF-8的优点;8. 联通,联想和联;
9. 用程序查看字符的编码;
MySQL数据库

1. 数据库的基本概念;2. 部署MySql数据库;3. MySQL数据类型;4. 使用SQL;5. 创建 表,和管理表;6. 数据插入;7. 数据更新;8. 数据删除;9. 主键类型,truncate语句

1. 查询语句; 2. SQL 高级查询; 3. SQL 函数; 4. 多表关联; 5. case 语句; 6. 索 引Index; 7. 内联接,包联接; 8. 子查询; 9.数据库3范式;10.E-R实体关系图,11. 触发器; 12.事务

jdbc基础 1. jdbc 简介; 2. 连接数据库; 3. 标准的异常处理方式; 4. 数据库工具类;
5. CURD 操作;6. Sql 注入攻击; 7. PreparedStatement;
8. 几种特殊但比较常用的类型; 9.单体测试;
jdbc高级 1. CLOB/BLOB 等数据类型的操作; 2. jdbc在实际项目中的应用模式;
3. 工厂模式; 4. 事务; 5. 隔离级别; 6. 使用 PreparedStatement 返回ID;
7. 批处理; 8. 元信息 ; 9. 数据源和连接池; 10. DBCP 的应用;
【Java Web 核心开发阶段} (19天)
Html基础及Html5高级

1. HTML 概述; 2. HTML 全局构架标签; 3. 格式标签; 4. 文本标签;
5. 超链接标签; 6. 图象标签; 7. 图象地图;

1. 表格标签和细线表格; 2. 帧标签; 3. 表单标签; 4. meta标签; 5. 头元
素; 6. 分区标签; 7. http会话方式; 8. http消息格式; 9. http消息头; 10. 请
求行与状态行; 11. 通用信息头; 12. 请求头; 13. 响应头; 14. 实体头和扩展头;

CSS/CSS3 1. 认识css; 2. css的几种设置方式; 3. 样式规则的选择器;
4. 样式规则的注释和有效范围;5. 样式属性详解; 6. 盒子模型;
7. 内联元素,块级元素; 8. 标准流; 9. 浮动; 10. 定位;
javascript基础 1. 脚本程序和javascript; 2. javascript的 数据类型,变量,常量; 4. 运算符,控制结
构; 5. 函数; 6. javascript内部对象; 7. 对象专用语句; 8. 数组;
javascript高级
HTTP协议详解
1. DHTML; 2. java中的事件处理; 3. windows对象; 4. windows对象的 frames
属性; 5. document 对象; 6. form 对象; 7. javascript页面验证; 8. http会话方
式;9. http消息格式;10 http消息头;11 请求行与状态行;12 通用信息头;
13 请求头;14 响应头;15 实体头和扩展头;
Servlet基础 1. 前置知识-使用dom4j来操作xml; 2. servlet简介; 3. 安装Tomcat;
4. 第一个Servlet 程序; 5. servlet的生命周期; 6. Servlet 的网络拓扑结构;
7. Servlet的几个实例; 8. myeclipse 的优化; 9. 基于Servlet 的登录功能;
10. 在servlet中访问数据库; 11. ServletConfig 接口;
servlet+tomcat 1. Tomact安装;2. Tomact包结构;3. Tomact部署及原理;4. Servlet与Tomact之间的
关系
Jsp基础 1. java EE 核心十三种技术; 2. JSP 基础; 3. JSP程序的执行原理;4. JSP注释;
5. JSP脚本元素; 6. JSP版计算器;
Jsp之MVC模式 1. MV 模式; 2. MVC 模式; 3. 请求的转发; 4. 请求的重定向;
5. 请求和响应中的乱码处理; 6. DAO 层; 7. 三层构架模式;
Jsp_指令和内置对象 1. jsp指令; 2. jsp隐式对象概述; 3. request对象; 4. response 对象;
5. session 对象; 6. application 对象; 7. pageContext 对象;
8. exception 对象; 9. page对象; 10. config对象; 11. out对象;
13. 访问个个域范围中的属性; 14. Mime类型;
Jsp_标准动作和JSTL 1. javaBean; 2. JSP标准动作; 3. 跳转方式的总结; 4. EL 表达式;
5. jstl 标签库详解; 6. 日期格式化;
分页 1. 分页常识; 2. PageInfo 类; 3. 分页工具类; 4. 页面处理; 5. 控制层处理;
6. 使用JSTL标签处理分页页面;
过滤器和监听器 1. 过滤器的工作原理; 2. Filter 接口; 3. FilterConfig接口; 4. FilterChain 接口;
5. 登陆统一验证; 6. 过滤乱码的过滤器; 7. 验证是否有Session 的过滤器;
8. servlet监听器; 9. servlet监听器实例 ;
文件上传下载 1. 简单的文件上传; 2. 多文件上传; 3. 使用 Servlet 上传文件;
4. 文件上传与数据库操作; 5. 文件的下载;
正则表达式 1. 什么是正则表达式; 2. 正则表达式工具介绍; 3. javascript 中的 RegExp 对象;
4. 正则表达式语法; 5. java 中使用正则表达式验证;
6. 经典的javascript验证实例;
jQuery 1 jquery 简介和体验; 2 jquery 中的常用函数; 3 jquery 对象和Dom对象;
4 jQuery 的取值和赋值操作; 5 jquery 选择器; 6 jquery 节点遍历; 7 链式编程;
8 jquery 中的过滤器; 9 jquery 属性操作; 10 jquery Dom节点操作; 11 几个jquery
例子; 12 jquery 中的事件; 13 jquery 中的动态效果;
Ajax+json 1. JSON 与ajax 简介; 2. XMLHttpRequest; 3. XMLHttpRequest 对象实现 ajax;
4. jquery 实现 ajax; 5. JSON LIB; 6. java对象转json数组;
7. 集合转 json数组; 8. jauery解析json格式; 9. JSON 对象反序列化为java对象;
10. jquery中 datatype=jsonp 的说明的应用;
Java中级阶段综合项目
分组实战
1. 电商购物平台; (包含SVN);
2. 金融行业-某银行大额金融交割系统;
【企业核心SSH框架与当前流行框架开发实战】 (32天)
Oracle数据库 1. 用户名,权限,角色; 2. 系统权限,对象权限; 3. 角色授权及维护;
4. 管理表空间和数据文件; 5. 索引的概念和应用;
SSH框架-struts2 1. java中的反射机制; 2. struts2 简介; 3. Struts2环境的搭建;
4. 第一个struts2 应用; 5. 文件上传与下载; 6. 拦截器; 7. Struts标签;
8. Struts验证; 9. 国际化;
springMVC 1. 理解SpringMVC架构;2. SpringMVC配置;3. 控制器开发;4. 添加拦截器;5. 理解
View和View Resolvers;
SSH框架-hibernate 1. hibernate - 类库简介; 2. 第一个hibernate 程序; 3. session接口;
4. 对象状态; 5. HQL; 6. 一对多,多对一; 7. 一级缓存、二级缓存;
8. 级联删除、关联查询; 9. 事务隔离级别、乐观锁、悲观锁;
10. 数据批量操作;
Mybatis 1. Mybatis配置;2. Mybatis开发优势;3. 链接、session、事务处理;4. SQL映射;
5. 动态SQL;6. 整合JavaEE和CDI;7.自定义式处理;8.SQL生成器类;
9. 多数据库接口开发;
SSH框架-spring 1. spring 简介; 2. IoC (控制反转);
3. 第一个spring程序;
4. aop(面相切面编程);
5. struts+hibernate+spring整合;
redis 1. 部署Redis、Redis数据结构;
2. 集合、Redis持久化;
3. Redis同步原理
maven 1. Maven的高级应用;2. 理解POM架构;3. 生命周期;4. Maven配置;5. Maven属性及
变量;6. Maven存储;7. Maven Web应用;
easyUI 1. EasyUI必要的js和css;2. EasyUI使用范例;3. Easyloader分析与使用;4. Easyloader
源码分析;5. Parser源码分析;6. EasyUI组件使用;7. EasyUI layout;
Webservice 1.Web服务的创建; 2. Web服务的发布 ; 3. Web服务的调用;
Java高级阶段综合实战
开发项目(一)
大型电商购物平台商业综合项目实战开发(京东、淘宝等);
项目所需技术------绘制:时序图,类图;
后台架构:Struts2+hibernate+spring;; 前台架构:easyUI+jQuery;
数据库:Oracle大型商业数据库;
Java高级阶段综合实战
开发项目(二)
大型连锁酒店管理系统实战开发项目(1千家以上门店);
项目所需技术------绘制:时序图,类图;
后台架构:springMVC+spring+Mybatis; 前台架构:EXT+JQUERY;
数据库:Oracle大型商业数据库;
         
大数据开发
第一阶段【Hadoop、Spark大数据环境下Scala基础实战与环境搭建】
Spark生态系统
以及本课程价值

Spark是开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具
有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需
要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce
的算法。是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同
之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,Spark 启用
了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

 

1. Spark生态系统整体介绍; 2. 本课程介绍、特色以及价值;

Scala基础与实战 1. Scala入门实战 (数组和map等各种实战); 2. Scala进阶实战案例;
3. Scala面向对象入门实战(基本的类、对象和Trait接口实战);
4. Scala面向对象进阶实战;
5. Scala函数式编程大量实战案例(高阶函数、集合和序列等);
6. Scala高级功能函数实战(泛型、隐式参数和隐士类等);
7. Scala的Actor实战; 8. AKKA的架构解析与案例实战; 9. Scala课程总结;
大数据环境搭建-Linux集群

Linux是大数据入门的基础,其一是企业级所有的大数据软件都会部署在Linux平台上,
其二是大数据的研发都是基于Linux的。所以Linux基础知识是必不可少的。

 

1. 搭建CentOS 6.5集群搭建(VMware和VirtualBox);

大数据环境搭建-
ZooKeeper大数据监控管理
集群系统环境

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的
Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提
供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务
等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高
效、功能稳定的系统提供给用户。

 

1. 搭建ZooKeeper 3.4.6集群并进行实战;

大数据环境搭建-
Kafka高吞吐量的分布式发
布订阅消息系统集群环境

网页浏览,搜索和用户操作行为是在互联网上许多社会功能的一个关键因素。 这些数
据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样
的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。

 

1. 搭建kafka_2.10-0.9.0.0.tgz集群并进行实战;

大数据环境搭建-
最新Hadoop 2x大数据
集群环境

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)并且设计用来
部署在低廉的(low-cost)硬件上;它提供高吞吐量(high throughput)来访问应用
程序的数据,适合有着超大数据集的应用程序。 Hadoop已经有超过10年的历史了,主
要提供HDFS存储、MR2离线编程模型、YARN资源调度与其它大数据平台集成;


1. 搭建Hadoop 2.4.1集群并进行简单实战;

大数据环境搭建-
NoSQL大数据仓库HBase

HBase-Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储
系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。


1. 搭建HBase-1.1.5并进行实战;

大数据环境搭建-
关系型大数据数据仓库Hive

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库
表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优
点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门
的MapReduce应用,十分适合数据仓库的统计分析。


1. 搭建Hive 1.2.1并进行实战;

大数据环境搭建-
数据实时处理Spark集群

Spark 是一种与 Hadoop 相似的开源集群计算环境, Spark 启用了内存分布数据集,除
了能够提供交互式查询外,它还可以优化迭代工作负载。
1. 搭建Spark 1.6.1集群(单机、伪分布式和完全分布式);


2. Spark 1.6.1源码编译课程讲解;

第二阶段【商业主流Spark实时大数据处理系统开发实战】
Spark Core编程
模型解析和实战
1. Spark Runtime(Driver、Masster、Worker和Executor)深度分析和RDD揭秘;
2. Spark Java开发WordCount实战(local本地运行);
3. Spark Java开发WordCount程序提交到集群运行;
4. Spark Scala、Python开发WordCount程序;
5. Spark spark-shell开发WordCount程序;
6. Spark pyspark开发WordCount程序;
7. Spark spark-submit命令详细说明;
8. Spark WordCount深度原理剖析;
9. Spark 架构原理剖析;
10. Spark RDD基本创建所需要的数据源(集合、本地文件、HDFS、Hbase等);
11. Spark RDD实战和各种实战案例;
12. Spark RDD持久化、广播变量和累加器;
13. Spark高级排序和TopN深度揭秘;
14. Spark Core综合实战(Java和Scala);
Spark Core运行架构以及内
核原理、源码深度剖析

1. Spark内核架构深度剖析;
2. Spark RDD的依赖关系深度剖析(Lineage);
3. Spark ON Local深度剖析;
4. Spark ON Yarn深度剖析;
5. Spark ON Mesos深度剖析;
6. Spark的开启之旅深度剖析;
7. Spark的Master(HA、注册、状态改变和资源调度算法等)原理剖析和源码剖析;
8. Spark的Worker原理剖析和源码剖析(Worker运行流程图分析、Worker启动Driver源
码分析、和Worker启动Executor源码分析)";
9. Spark中Job运行原理深度分析;

10. Spark的大脑运行机制深度分析;
11. Spark的Task处理内幕和源码深度剖析;
12. Spark的Shuffer模块原理剖析;
13. Spark的BlockManager架构原理、运行流程图和源码分析;
14. CacheManager运行原理流程图和源码分析;
15. Spark 回顾和总结主要技术点;

Spark性能优化策略和方案 1. Spark性能优化整体介绍;
2. Spark性能优化:开发调优(开发Spark过程中如何进行调优);
3. Spark性能优化:资源调优(Spark各种资源参数的配置,对优化程序有重大影响);
4. Spark性能优化:数据倾斜(各种大量数据产生的数据倾斜的解决方案);
5. Spark性能优化:各种Shuffer调优(各个Shuffer过程的调优方案);
6. Spark2.0给性能带来了那些重要变比,比如(Tungsten第二阶段、统一内存管理和
DataSet等性能提升);
第三阶段【Spark核心框架-实时流处理、机器学习、图计算商业核心应用】
Spark核心框架的应用 ——
Spark SQL
1. Spark SQL 背景整体介绍;
2. 进行Spark SQL之前预热的Hive实战
3. Spark SQL DataFrame处理的案例与解析;
3.1 Spark SQL DataFrame的编程模型、基本操作案例与解析;
3.2 Spark SQL DataFrame与RDD之间的转化案例与解析(Java、Scala和Python);
3.3 Spark SQL 缓存表(列式存储)的案例与解析;
3.4 Spark SQL DataFrame API的应用案例与解析;
4. Spark SQL 处理各种数据源的案例与解析;
4.1 Spark SQL 加载保存功能的案例与解析(Java、Scala和Python)
4.2 Spark SQL Parquet综合案例实战
4.3 Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)
4.4 Spark SQL JDBC数据源复杂综合案例实战
4.5 Spark SQL JSON数据源复杂综合案例实战
4.6 Spark SQL 集成ElasticSearch的案例实战
5. Spark SQL 各种函数综合实战(包含UDF、UDAF和开窗函数等功能)
6. Spark SQL Thrift Server实战
7. Spark SQL Hive On Spark大揭秘(企业级还没有正式用,扩展知识面)
8. Spark SQL 内核引擎深入解析与性能优化策略(缓存数据、增加并行度、高效的数
据格式、内存的使用、广播变量和合适的task等)";
9. Spark SQL 综合案例实战
Spark核心框架的应用 ——
Spark实时流处理
1. Spark Streaming基本工作原理介绍;
2. Spark Streaming与其它流式框架(Flink、Storm)的对比分析;
3. Spark Streaming实时案例实战(Java和Scala);
4. Spark Streaming 处理不同数据源的原理与实战;
4.1 Spark Streaming 处理TCP数据的案例与解析;
4.2 Spark Streaming的DStream与HDFS的实战;
4.3 Spark Streaming的DStream与Kafka实战(基于Receiver的方式);
4.4 Spark Streaming的DStream与Kafka实战(基于Direct的方式);
4.5 Spark Streaming的DStream与Flume实战;
4.6 Spark Streaming的DStream与ActiveMQ实战;
5. Spark Streaming DStream的各种转化和Action实战;
5.1 Spark Streaming的DStream的transformation操作剖析和实战;
5.2 Spark Streaming的transform以及模拟Nginx日志实时过滤案例实战;
5.3 Spark Streaming各种DStream之间的合并实战;
6. Spark Streaming与Spark SQL结合实时案例实战(企业级最常用的方式);
7. Spark Streaming的缓存和CheckPoint机制;
8. Spark Streaming 底层运行原理与架构进阶;
9. Spark Streaming StreamingContext DStream和Receiver启动原理剖析与源码分析
10. Spark Streaming 源码分析;
11. Spark Streaming 性能调优【优化运行时间、合适的批次大小和优化内存使用】;
Spark核心框架的应用 ——
Spark GraphX
1. 图计算的整体背景介绍以及跟其它图数据库和图计算引擎的结合和对比
(Neo4j、GraphSQL、GraphLab、Hama、Giraph和Spark Graphx);
2. Spark GraphX原理和实现.;
3. Spark GraphX的基本操作(Verticies\Edges\Triplets)实战;
4. Spark GraphX 在社交领域中的实战(Triangle);
5. Spark GraphX 两点之间最短优化路径实战(ShortestPaths);
6. Spark GraphX PageRank实战;
7. Spark GraphX 在金融领域中的实战(反欺诈、组团欺诈和客户失联等);
8. Spark GraphX 医疗行业中的实战(医疗中病、症、医案、病和方剂的推理);
Spark核心框架的应用 ——
Spark Tachyon
1. Tachyon的架构解析以及应用场景;
2. Tachyon的操作实战;
3. Tachyon与Spark的集成实战;
Spark核心框架的应用 ——
Spark Machine Learning
1. Spark Mlib机器学习的背景介绍以及应用场景;
2. Spark Mlib 线性回归(LinearRegression)算法原理和实战;
3. Spark Mlib 聚类(K-Means)算法原理和实战;
4. Spark Mlib 协同过滤算法 (Collaborative Filtering) ALS 原理和实战;
企业级大数据架构案例剖析 1. 星环科技TDH的大数据剖析; 2. 中瑞智慧CWH的大数据剖析;
3. 酷土豆使用Spark大数据剖析; 4. 京东使用大数据Spark剖析;
5. 华为使用Spark大数据剖析; 6. 腾讯使用Spark大数据剖析;
7. IBM的大数据架构剖析; 8. 酷狗音乐的大数据剖析;
基于Hadoop与Spark环境的
大数据综合项目实战
1. 电商购物平台大数据处理系统;
2. 大型网站大数据处理分析实时推送系统;
3. 连锁酒店大数据处理分析系统;
星环科技TDH的大数据剖析 大家都知道星环是做大数据的,但可能都不清楚星环具体做的是什么业务。
首先,星环不仅仅是做数据挖掘的。很多人一听说大数据首先想到的就是数据挖
掘,但星环提供的其实是工具。如果你熟悉Hadoop生态,肯定听说过HDFS、Ma-
pReduce、Hive、HBase、YARN、ZooKeeper等,当然还有最近非常火的Spark。对,
星环就是在开源的基础上改造这些组件,将不稳定的部分改稳定,将性能低下的部分
提升性能,提供支持SQL标准的接口,方便传统RDBS的业务往我们的产品TDH(Tran-
swarp Data Hub)上转移,等等,最终打造一站式平台。
一句话归纳,星环提供一站式Hadoop大数据平台,可以理解为大数据数据库。他们的
目标是成为大数据时代的Oracle。
优酷土豆Spark大数据分析 优酷土豆运营的数据主要包括播放、用户交互、搜索、广告等。整个平台以Hadoop集
群、Spark处理集群为基础,目前已经达到1000个节点的集群规模,并还将继续扩展。
由于跨机房等问题,优酷土豆自研了一套日志系统,对各个团队将近500种日志统一进
行收集。收集到的日志按照业务类型有不同策略的存储方案,原始日志直接以文件的
形式离线存储在HDFS上,做一些离线的分析和处理;另外,平台搭建了一套近五十台服务
器规模的开放的Kafka,满足了一些实时业务读取和访问数据的需求。 数据平台团队整
个技术栈之上创建了Hadoop的扩容和优化、Storm问题的排查和优化等应用,开放了
一个HBase集群和一个Redis集群做Cache,以接口的方式为全公司去提供服务。
京东大数据Spark分析  
腾讯使用Spark大数据分析 腾讯的月活跃用户8.3亿;微信月活跃用户4.4亿;QQ空间月活跃用户6.5亿;游戏月活
跃用户过亿;如今腾讯的数据分析已经能做到始终"不落地",即全部的实时处理。
腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和Gaia。简单来说,TDW
用来做批量的离线计算,TRC负责做流式的实时计算,TPR负责精准推荐,TDBank则作
为统一的数据采集入口,而底层的Gaia则负责整个集群的资源调度和管理。李勇还特
别强调了数据平台体系化是应用基础,数据应用商业化是价值导向。
IBM使用Spark大数据分析 企业要如何应对这样的快速发展?谁又能帮助这项企业实现原定的目标?IBM给你答
案。实际上,Power 8的闪亮登场,便以其处理海量数据的强大能力给了企业管理新兴
社交和移动计算一剂强针。而同时,IBM又一直在倡导和支持Linux和开源,并最终将开
源技术也融入到了power平台。
当IBM在支持Linux和开源之后,更加智能的横向扩展不再只是x86的优势,Power在大
数据挖掘与分析、云计算部署方面将发挥更大的性能,更好的体现为云计算设计、为
大数据而生的预置能力,基于Power 8技术的IBM Power Systems服务器在大数据分析
速度上比最新的x86系统快82倍。