您现在的位置是:课程

个人大数据平台的搭建与学习实践

2023-09-20 23:12课程 人已围观

### 第1讲-在Windows上安装配置PySpark

目的:在Windows上安装配置PySpark环境,搭建学习Spark的环境,主要的内容包括。

* 1-安装Python和Java运行环境

* 2-下载Spark安装包和对应的Winutil工具

* 3-安装、配置Spark,并通过Scala、Python、R语言进行验证

* 4-PySpark使用的安装配置和使用验证

### 第2讲-HDP大数据环境导入和配置

目的:HDP大数据虚拟机导入配置验证,搭建好HDP大数据环境,主要包括以下内容。

* 1-导入HDP大数据虚拟机

* 2-HDP大数据环境初始使用操作

* 3-Hue Web上HDFS操作

* 4-Hue Web上Hive操作

* 5-Hue Web上Pig操作

### 第3讲-HDP大数据应用、工具使用验证

目的:对安装的HDP大数据环境中的各项应用及工具进行介绍及可用性的验证,成功的验证后为后续工具的语法和使用奠定基础,主要包括以下内容。

* 1-HDFS使用验证

* 2-Hive使用验证

* 3-Pig使用验证

* 4-Sqoop使用验证

* 5-Spark使用验证

* 6-Oozie使用验证

* 7-Kafka使用验证

* 8-Zookeeper使用验证

### 第4讲-HDP大数据平台各工具深入

目的:本讲课程对HDP大数据平台上的各工具使用进行深入学习,说明主要的核心概念与语法,主要的内容如说明。

* 1-Hive配置文件与常用设置

* 2-Hive创建表语法特点

* 3-Hive数据操纵语法

* 4-Hive内置运算符和函数

* 5-Hive窗口函数

* 6-Hive编写UDF函数

* 7-Pig数据读取、存储、输出

* 8-Pig数据转换操作

* 9-Pig UDF函数

* 10-开启HBase服务

* 11-HBase数据模型与语法

* 12-HBase SQL

* 13-安装Ranger

* 14-Ranger权限管理和配置

### 第5讲-PySpark数据分析挖掘

目的:通过第1讲安装的Spark环境,和第2讲中HDP大数据环境,对SPark进行学习,主要通过PySpark进行操作演示,主要的内容如下。

* 1-认识Spark

* 2-Spark1和Spark2的对比

* 3-Spark RDD说明和操作

* 4-Spark DataFrame说明和操作

* 5-Spark数据分析

* 6-Spark SQL说明和操作

* 7-Spark Streaming说明和操作

* 8-PySpark线性回归

* 9-PySpark逻辑回归

* 10-PySpark随机森林

-->

站点信息

  • 文章统计篇文章