大数据极限培训-某学堂
商业版

大数据极限培训-某学堂

2017-10-19 21:50:06      运维与安全系统与架构     官方发布         

¥ 8.00

VIP会员免费下载本站所有课程,非VIP用户原价购买!立即升级

3 1286

课程介绍:

大数据极限培训-某学堂2016年ssxxtt第一阶段:linux+搜索+hadoop体系

Linux大纲

1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程

2) 了解机架服务器,采用真实机架服务器部署linux

3) Linux的常用命令:常用命令的介绍、常用命令的使用和练习

4) Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;

5) Linux启动流程,运行级别详解,chkconfig详解

6) VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键

7) Linux用户和组账户管理:用户的管理、组管理

8) Linux磁盘管理,lvm逻辑卷,nfs详解

9) Linux系统文件权限管理:文件权限介绍、文件权限的操作

10) Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作

11) yum命令,yum源搭建

12) Linux网络:Linux网络的介绍、Linux网络的配置和维护

13) Shell编程:Shell的介绍、Shell脚本的编写

14) Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署


大型网站高并发处理

1) 第四层负载均衡-Lvs负载均衡- 负载算法,NAT模式,直接路由模式(DR),隧道模式(TUN)- F5负载均衡器介绍

2) 第七层负载均衡- Nginx -Apache

3) Tomcat、jvm优化提高并发量

4) 缓存优化-Java缓存框架-i. Oscache,ehcache-缓存数据库- Redis,Memcached

5) Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理

6) Haproxy

7) Fastdfs小文件独立存储管理

8) Redis缓存系统 Redis基本使用Redis sentinel高可用Redis好友推荐算法


Lucene课程

1) Lucene介绍 

2) Lucene 倒排索引原理 

3) 建索引 IndexWriter 

4) 搜索 IndexSearcher 

5) Query 

6) Sort和 过滤 (filter) 

7) 索引优化和高亮


Solr课程      

1) 什么是solr

2) 为什么工程中要使用solr

3) Solr的原理

4) 如何在tomcat中运行solr

5) 如何利用solr进行索引与搜索

6) solr的各种查询

7) solr的Filter

8) solr的排序

9) solr的高亮

10) solr的某个域统计

11) solr的范围统计

12) solrcloud集群搭建


Hadoop离线计算大纲

一、初识hadoop

1) Hadoop生态环境介绍

2) Hadoop云计算中的位置和关系

3) 国内外Hadoop应用案例介绍

4) Hadoop 概念、版本、历史

5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构

6) Hadoop 的集群结构

7) Hadoop 伪分布的详细安装步骤

8) 通过命令行和浏览器观察hadoop


二、 HDFS体系结构和shell以及java操作

1) HDFS底层工作原理

2) HDFS datanode,namenode详解

3) Hdfs shell

4) Hdfs java api


三、 详细讲解Mapreduce

1) Mapreduce四个阶段介绍

2) Writable

3) InputSplit和OutputSplit

4) Maptask

5) Shuffle:Sort,Partitioner,Group,Combiner

6) Reducer


四、 Mapreduce案例案例

1) 二次排序

2) 倒排序索引

3) 最优路径

4) 电信数据挖掘之-----移动轨迹预测分析(中国棱镜计划)

5) 社交好友推荐算法

6) 互联网精准广告推送 算法

7) 阿里巴巴天池大数据竞赛 《天猫推荐算法》案例

8) Mapreduce实战pagerank算法


五、 Hadoop2.x集群搭建

1) Hadoop2.x集群结构体系介绍

2) Hadoop2.x集群搭建

3) NameNode的高可用性(HA)

4) HDFS Federation

5) ResourceManager 的高可用性(HA)

6) Hadoop集群常见问题和解决方法 

7) Hadoop集群管理


分布式数据库

1) HBase定义

2) HBase与RDBMS的对比

3) 数据模型

4) 系统架构

5) HBase上的MapReduce

6) 表的设计

7) 集群的搭建过程讲解

8) 集群的监控

9) 集群的管理

10) HBase Shell以及演示

11) Hbase 树形表设计

12) Hbase 一对多 和 多对多 表设计

13) Hbase 微博 案例14) Hbase 订单案例

15) Hbase表级优化16) Hbase 写数据优化

17) Hbase 读数据优化


数据仓库Hive      

1) 数据仓库基础知识

2) Hive定义

3) Hive体系结构简介

4) Hive集群

5) 客户端简介

6) HiveQL定义

7) HiveQL与SQL的比较

8) 数据类型

9) 外部表和分区表

10) ddl与CLI客户端演示

11) dml与CLI客户端演示

12) select与CLI客户端演示

13) Operators 和 functions与CLI客户端演示

14) Hive server2 与jdbc

15) 用户自定义函数(UDF 和 UDAF)的开发与演示

16) Hive 优化


数据迁移工具Sqoop      

1) 介绍 和 配置Sqoop

2) Sqoop shell使用

3) Sqoop-import-DBMS-hdfs-DBMS-hive-DBMS-hbase

4) Sqoop-export

Flume分布式

日志框架      

1) flume简介-基础知识

2) flume安装与测试

3) flume部署方式

4) flume source相关配置及测试

5) flume sink相关配置及测试

6) flume selector 相关配置与案例分析

7) flume Sink Processors相关配置和案例分析

8) flume Interceptors相关配置和案例分析

9) flume AVRO Client开发

10) flume 和kafka 的整合


Zookeeper开发      

1) Zookeeper java api开发

2) Zookeeper rmi高可用分布式集群开发

3) Zookeeper redis高可用监控实现

4) Netty 异步io通信框架 

5) Zookeeper实现netty分布式架构的高可用


项目实战

a) Web项目和云计算项目的整合

b) Flume通过avro实时收集web项目中的日志 

c) 数据的ETL 

d) Hive 批量 sql执行 

e) Hive 自定义函数 

f) Hive和hbase整合。 

g) Hbase 数据支持 sql查询分析 

h) Mapreduce数据挖掘 

i) Hbase dao处理 

j) Sqoop 在项目中的使用。 

k) Mapreduce 定时调用和监控


第二阶段:机器学习

R语言

1) R语言介绍,基本函数,数据类型

2) 线性回归

3) 朴素贝叶斯聚类

4) 决策树分类

5) k均值聚类-离群点检测

6) 关联规则探索 

7) 神经网络


Mahout机器学习      

1) 介绍为什么使用它,它的前景

    a) 简单介绍Mahout   

    b) 简单介绍机器学习   

    c) 实例演示Mahout单机推荐程序

2) 配置安装(hadoop2.x版本的)编译安装步骤说明

    a) 命令行中测试运行协同过滤概念

3) 推荐

    a) 讲解基于用户的协同过滤   

    b) 讲解基于物品的协同过滤

4) 分类

    a) 分类概念   

    b) 分类的应用及Mahout分类优势   

    c) 分类和聚类、推荐的区别   

    d) 分类工作原理

    e) 分类中概念术语   

    f) 分类项目工作流   

    g) 如何定义预测变量   

    h) 线性分类器的介绍,及贝叶斯分类器

    i) 决策树分类器的介绍,及随机森林分类器   

    j) 如何使用贝叶斯分类器和随机森林分类器的代码展示

5) 聚类

    a) 聚类概念   b) 聚类步骤流程   c) 聚类中的距离测度   d) 讲解K-means聚类   e) K-means聚类算法展示

    f) 聚类其他算法   g) 介绍TF-IDF   h) 归一化   i) 微博聚类案例

项目实战

微博营销数据挖掘项目

项目技术架构体系:

a) 分布式平台 Hadoop,MapReduce b) 数据采集 Flume c) 数据清洗 ETL d) 数据库 Hbase,Redis e) 机器学习 Mahout


第三阶段:storm流式计算

redis缓存系统课程大纲

1) redis特点、与其他数据库的比较

2) 如何安装redis

3) 如何使用命令行客户端

4) redis的字符串类型

5) redis的散列类型

6) redis的列表类型

7) redis的集合类型

8) 如何使用java访问redis【a.python访问redis,scala访问redis】

9) redis的事务(transaction)

10) redis的管道(pipeline)

11) redis持久化(AOF+RDB)

12) redis优化

13) redis的主从复制

14) redis的sentinel高可用

15) twemproxy,codis实战

16) redis3.x集群安装配置


Kafka课程

1) kafka是什么

2) kafka体系结构

3) kafka配置详解

4) kafka的安装

5) kafka的存储策略

6) kafka分区特点

7) kafka的发布与订阅

8) zookeeper协调管理

9) java编程操作kafka

10) scala编程操作kafka

11) flume 和kafka 的整合

12) Kafka 和storm 的整合

Storm实时数据处理      

项目技术架构体系:

1) Storm的基本概念 

2) Storm的应用场景 

3) Storm和Hadoop的对比 

4) Storm集群的安装的linux环境准备 

5) zookeeper集群搭建 

6) Storm集群搭建

7) Storm配置文件配置项讲解

8) 集群搭建常见问题解决

9) Storm常用组件和编程API:Topology、 Spout、Bolt

10) Storm分组策略(stream groupings)

11) 使用Strom开发一个WordCount例子

12) Storm程序本地模式debug、Storm程序远程debug

13) Storm事物处理

14) Storm消息可靠性及容错原理

15) Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API

16) Storm Trident概念

17) Trident state 原理

18) Trident开发实例

19) Storm DRPC(分布式远程调用)介绍

20) Storm DRPC实战讲解

21) Storm和Hadoop 2.x的整合:Storm on YarnStorm开发实战: Kafka+Storm+Hbase+redis项目实战,以及多个案例


项目实战

项目技术架构体系:Storm+hbase+kafka+flume+echarts

a) flume实时采集日志 

b) kafka缓冲队列 

c) storm实时处理 

d) Hbase dao存储处理结果 

e) 前端Web实时展示报表


第四阶段:spark内存计算

Python课程      

1) 介绍Python以及特点

2) Python的安装

3) Python基本操作(注释、逻辑、字符串使用等)

4) Python数据结构(元组、列表、字典)

5) 使用Python进行批量重命名小例子

6) Python常见内建函数

7) 更多Python函数及使用常见技巧

8) 异常

9) Python函数的参数讲解

10) Python模块的导入

11) Python中的类与继承

12) 网络爬虫案例

13) 数据库连接,以及pip安装模块

14) Mongodb基础入门

15) 讲解如何连接mongodb

16) Python的机器学习案例


Scala课程      

1) scala解释器、变量、常用数据类型等

2) scala的条件表达式、输入输出、循环等控制结构

3) scala的函数、默认参数、变长参数等

4) scala的数组、变长数组、多维数组等

5) scala的映射、元组等操作

6) scala的类,包括bean属性、辅助构造器、主构造器等

7) scala的对象、单例对象、伴生对象、扩展类、apply方法等

8) scala的包、引入、继承等概念

9) scala的特质

10) scala的操作符

11) scala的高阶函数

12) scala的集合

13) scala数据库连接


Spark

1) Spark介绍2) Spark应用场景

3) Spark和Hadoop MR、Storm的比较和优势

4) RDD

5) Transformation

6) Action

7) Spark计算PageRank

8) Lineage

9) Spark模型简介

10) Spark缓存策略和容错处理

11) 宽依赖与窄依赖

12) Spark配置讲解

13) Spark集群搭建

14) 集群搭建常见问题解决

15) Spark原理核心组件和常用RDD

16) 数据本地性

17) 任务调度

18) DAGScheduler

19) TaskScheduler

20) Spark源码解读

21) 性能调优

22) Spark和Hadoop2.x整合:Spark on Yarn原理


Spark Streaming实时计算

1) Spark Streaming:数据源和DStream

2) 无状态transformation与有状态transformation

3) Streaming Window的操作

4) sparksql 编程实战

5) spark的多语言操作

6) spark最新版本的新特性


Spark MLlib

1) 介绍-Spark MLlib组件介绍- 基本数据类型

2) 回归算法-广义线性模型- 逻辑回归

3) 分类算法-朴素贝叶斯-决策树-随机森林

4) 第四章 推荐系统

5) 第五章 聚类-Kmeans -Sparse kmeans - Kmeans++-means II-Streaming kmeans- Gaussian Mixture Model-Spark GraphX

图计算

a) 二分图b) 概述c) 构造图d) 属性图e) PageRank


项目实战

a) 实时流处理 Kafka,Spark Streaming 

b) 分布式运算 Hadoop,Spark 

c) 数据库 Hbase,Redis 

d) 机器学习 Spark Mllib 

e) 前台web展示数据 Struts2,echart


手机软件推荐系统项目

a) 分布式平台 Hadoop,Spark

b) 数据清洗 Hivec) 数据分析 R RStudiod) 推荐服务 Dubboxe) 规则过滤 Droolsf) 机器学习 MLlib

网络流量异常检测项目

a) 数据存储 Hadoop b) 数据准备 Spark c) 数据分析 R RStudio d) 机器学习 MLlib e) 数据评价及调参


第五阶段:云计算平台

Docker 课程      Docker 

1) 基本介绍

2) vm docker 对比

3) docker基本架构介绍

4) unfs cgroup namespace

5) 进程虚拟化 轻量级虚拟化

6) docker 安装

7) docker 镜像制作

8) docker 常用命令

9) docker 镜像迁移

10) docker pipework【i.openvswitch】

11) docker weave

虚拟化KVM

1) 虚拟化介绍,虚拟化适用场景等等

2) Qemu Libvirt & KVM

3) 安装KVM, Qemu, Libvirt

4) QEMU-KVM: 安装第一个能上网的虚拟机

5) Kvm虚拟机 nat,网桥基本原理

6) kvm虚拟机克隆

7) kvm虚拟机vnc配置

8) kvm虚拟机扩展磁盘空间

9) Kvm快照10) Kvm 迁移

11) Java,python,c语言编程控制kvm

12) 构建自己的虚拟云平台

云平台OpenStack      

1) openstack介绍和模块基本原理分析

2) openstack多节点安装部署【a.采用centos6.x系统】

3) Keystone基本原理

4) glance

5) Cinder

6) Swift

7) Neutron

8) Openstack api 二次开发


3条历史评价
  1. 未评价,系统默认好评!

  2. 未评价,系统默认好评!

  3. 未评价,系统默认好评!

  4. 更多评论

购买须知:

Hi, 如果你对这套课程有疑问,可以跟我联系哦!

联系客服
Copyright © 2005-2018 昕昕网络教程
Hello,欢迎来咨询~
新手教程 技术支持 0771-6793789 电话咨询 回到顶部