Ansys和Matlab培训课程班

Spark大数据处理案例分析与实践培训课程

5 (9653人评价)
  • 精品
  • 笔记:(65387)

  • 学员:(217537)

  • 浏览:(277013)

  • 加入课程

课程介绍

 

其他精品热门课程班:
  • c++高级培训培训课程
  • c网络安全编程培训培训课程
  • 网络安全产品开发与C语言编程培训培训课程
  • QT培训培训课程
  • 基于CHI代码健康指数的设计模式与重构培训培训课程
  • 硬件MCU外围电路设计培训培训课程
  • MCU开发入门技术培训培训课程
  • linux服务器实战培训培训课程
  • 电力传感器以及应用培训培训课程
  • UE4地编培训课程培训课程
  • UE4 C++培训培训课程
  • VxWorks系统培训培训课程
  • 电机控制器EMC测试技术及原理培训培训课程
  • Concept HDL培训培训课程
  • TI DSP 编程培训培训课程
  • FPGA编程培训培训课程
  • 汽车EE架构培训培训课程
  • 赛灵思新的Vitis统一软件开发平台培训培训课程
  • Xilinx-FPGA人工智能设计与实现技术高级培训培训课程
  • 裸芯片应用+Petalinux系统培训培训课程
  • Xilinx统一软件异构加速平台Vitis培训培训课程
  • PCB焊接培训课程培训课程
  • Xilinx软件异构加速平台培训培训课程
  • Xilinx ZYNQ SOC设计技术高级培训培训课程
  • Xilinx-FPGA人工智能设计与实现技术高级培训培训课程
  • Vitis软件开发平台培训培训课程
  • TMS320C6678 八核DSP开发培训培训课程
  • linuxGCC与GDB基础培训培训课程
  •  
     

    曙海教学优势

      本课程以项目实现为导向,面向企事业项目实际需要,秉承二十一年积累的教学品质,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。线上/线下/上门皆可,课程可定制,热线:4008699035。

      曙海培训的课程培养了大批受企业欢迎的工程师。曙海培训的课程在业内有着响亮的知名度。大批企业和曙海
    建立了良好的合作关系,合作企业30万+。

     

    精品课程班级列表

    •   目标收益

        本次Spark培训将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。

        通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,腾讯,百度等互联网行业,中国移动和联通等运营商。

        培训特色

        Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴(广告系统),腾讯(广点通精准推荐),百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。

        培训对象

        各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

        学员基础

        1) 了解Java语言(Scala语言会作为课程内容进行介绍);

        2) 了解Linux系统;

        课程大纲

        Spark大数据架构概述及案例简介

        1. 1介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架,大数据应用等

        1.2. Hadoop与Spark区别与关系

        1.3. Spark生态系统概述以及版本演化,并给出spark版本选择建议

        1.4. Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍)

        Spark商品推荐系统、用户标签系统

        Spark产生动机与基本概念

        2.1 Spark产生背景,与MapReduce对比,其优缺点是什么

        2.2 Spark核心概念

        (1)RDD

        (2)基本操作:transformation与 action

        2.2 Spark程序架构

        (1)Driver/executor

        (2)容错机制

        Spark安装部署

        3.1 Spark运行模式简介、standlone模式、Spark on yarn模式

        3.2 搭建一个spark on yarn集群、搭建yarn集群、运行第一个spark程序

        Spark程序设计实例

        4.1 Scala语言基础,常用语法以及库函数

        4.2 Spark程序设计方法

        1.Spark程序基本构成,SparkContext,RDD,transformation/action

        2.Spark API介绍

        (1) 如何创建RDD(scala集合,HDFS文件,HBase文件等)

        (2)如何基于RDD进行数据处理,介绍常见的分布式算子

        (3)如何保存处理结果(返回到driver端,写入hdfs等)

        (4)广播变量与累加器

        4.3 Spark程序设计实例

        (1)分布式Pi估算程序

        (2)K-means分类算法实现

        (3)逻辑回归算法实现

        Spark内部原理

        5.1 Spark程序运行流程概述

        介绍Spark从提交,到调度,到最后执行完成整个过程

        5.2 Spark内部执行流程

        介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节

        5.3 Spark shuffle实现

        介绍Spark shuffle发展史及实现逻辑

        5.4 Spark算子的内部机制

        以reduce By Key和group By Key为例介绍spark算子的内部实现原理

        Spark与外部系统整合

        6.1 Spark与Kafka和flume结合

        介绍如何使用kafka和flume将数据导入hadoop中,以便使用spark处理

        6.2 Spark与Storm结合

        介绍如何使用spark实时处理数据

        6.3 Spark与HBase和HDFS结合

        介绍Spark如何与HBase和HDFS实现数据的读写交互

        6.4 Spark与关系型数据库和hive结合

        介绍如何使用spark与关系型数据库和hive结合

        Spark调优方法

        Spark调优思想、方法

        Spark案例分析

        基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施

        Spark Streaming应用及案例分析

        8.1 Spark Streaming产生动机

        8.2 Spark Streaming程序设计

        (1)创建DStream

        (2)基于DStream进行流式处理

        8.3 Spark Streaming容错与性能优化

        (1)Spark Streaming容错机制

        (2)如何对spark Streaming进行优化

        8.4 Spark Streaming案例分析

        基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法

        Spark SQL

        9.1 Spark SQL定位

        9.2 如何使用SparkSQL处理数据

        (1)使用SparkSQL处理HDFS上数据

        (2)使用SparkSQL处理Hive中的数据

        9.3 Spark SQL与Spark及Spark Streaming结合

        MLlib

        10. 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等

        GraphX

        11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法




    • 垂询曙海客服