您现在的位置是:课程
数据仓库工程师必备技能—ETL从入门到实战
2023-06-30 21:23课程 人已围观
课程简介:
课程首先详细讲解pandas最重要的两种数据结构——Series和DataFrame,然后过渡到9种pandas的核心API,最后手把手带你模拟一个实战项目,用pandas清洗出数据指标,让你快速上手pandas成为规模数据处理达人。
ETL简介:
ETL(ETL - Extract, Transform, Load),从源系统中提取数据并将其引入数据仓库的过程通常称为ETL,即提取,转换和加载。
ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
pandas是一个可以做E(提取数据)T(转换数据)L(加载数据)工作的Python库,本课程将围绕pandas展开详细的学习。
老师简介:
Dico
芒果TV大数据服务架构师
8年开发经验,近几年从事大数据相关处理工作,主导了某在线视频媒体平台数据仓库建设、画像平台建设和推荐平台建设。具有丰富的PB级海量数据仓库架构、核心团队带队、海量数据处理经验,擅长Hadoop,Spark,Hive,Sqoop,Presto,Mahout,Storm等等大数据技术。
课程目录:
1、应用场景列举和设计的相关库
2、序列的几种构造方法
3、如何取出序列的数据
4、DataFrame讲解
5、创建对象查看数据
6、选择、缺失数据处理
7、数据操作、合并与分组、行列转换、时间序列、I&O操作
8、实战演练——广告和视频的结构
9、实战演练--广告数据的构成、指标的解释
10、实战演练--数据的收集
11、实战演练--广告指标业务分析 (构设一个nginx服务器)
12、课程里使用的广告数据模拟逻辑
13、投放数据与播放数据拆分
14、投放数据与播放数据清洗
15、实战演练--广告流失、升位统计
上一篇:QQ插件开发系列教程