Python: Manipulação de Dados com Pandas e PySpark
Pandas é uma biblioteca Python de código aberto usada para manipulação e análise de dados. O Pandas é construído em cima do pacote NumPy, portanto, é preciso muita inspiração básica dele. As duas estruturas de dados primárias são Series , que é unidimensional e DataFrame, que é bidimensional.
PySpark é uma API Python para Apache Spark para processar conjuntos de dados maiores em um cluster distribuído. Ele é escrito em Python para executar um aplicativo Python usando os recursos do Apache Spark.
Neste curso, você aprenderá os fundamentos destas duas tecnologias, bem como ferramentas de visualização de dados.
O que você irá aprender?
- Manipular dados com a biblioteca Pandas;
- Conhecer os ambientes de produção Apache Spark e Hadoop;
- Tratar dados com a biblioteca PySpark;
- Realizar processos de ETL (Extract, Transform e Load) usando Pandas e PySpark.
Detalhes do curso
Introdução a manipulação de dados com Pandas
Introdução
Séries
DataFrame
Questionário
Data Frames com Pandas
Exibição de dados
Importando CSV
Manipulação de dados
Importando JSON
Questionário
Introdução a manipulação de dados com PySpark
Hadoop
Apache Spark
PySpark
Configuração do ambiente Windows
Configurações de ambiente Linux
Manipulação de dados com PySpark
Introdução, montando RDD
Listagem de dados
Abordando colunas
Alterando tipos de dados
Consultas Simples
Consultas por condições
Definição de Schema
Operações e consultas com DF JSON
Manipulação de dados com SQL
Exercício de Treino
Introdução a visualização de dados
Introdução a data visualization com Python
Data visualization com Pandas
Data visuazliation com Seaborn
Data visualization com Matplotlib – Gráfico de barras
Data visualization com Matplotlib – Gráfico de histograma
Data visualization com Matplotlib – Gráfico de linha
Data visualization com Matplotlib – Gráfico de scatter
Data visualization com Plotly
Exercício de treino
Processo de ETL
Introdução
Extract
Transform
Load
Exercício de Treino