Sobre o Curso
Este é um treinamento com foco na utilização de algumas das principais ferramentas aplicadas ao processamento e tratamento de dados dentro ecossistema Hadoop. Unindo teoria e prática o treinamento Big Data Hadoop com Hortonworks Sandbox proporciona uma inserção fundamental dentro do ambiente Big Data.
Módulo 1 – Introdução
Definição
Histórico – Construção do Conceito
Módulo 2 – Data Lake
Arquitetura DataWare House tradicional
Arquitetura Big Data Ware House
Módulo 3 – IoT – Internet das Coisas e Big Data
Dispositivos ?vestíveis? (wearables)
Big Data: qual sua relação com a internet das coisas?
Módulo 4 – Ferramentas de Big Data
Primeira Versões
Módulo 5 – Software Livre e Open Source
Apache Hadoop Visão geral
História
Módulo 6 – Características do Hadoop
Escalável
Economico
Eficiente
Confiável
Módulo 7 – Ecossistema Hadoop
Ambari
HBase
Hive
Hive Data Warehouse Hadoop
Sqoop
Zookeeper
Pig
Módulo 8 ? Distribuições
Casos de Uso Hadoop
Módulo 9 – Modo de Utilização
SingleMode
HDFS – Hadoop FileSystem
HDFS – MapReduce Data Flow
HDFS – Arquitetura
HDFS – Arquitetura
Map Reduce
MapReduce X Hadoop
YARN ? Yet Another Resource Negotiator
Fluxo entre Map, Reduce ? Shuffle e Sort
YARN ?Fluxo de execução do Job
MapReduce – Função Map
MapReduce – Função Reduce
MapReduce no cluster
Módulo 10 – HDP (Hortonworks Data Platform)
Dados no HDFS
Módulo 11 – Hive ? Introdução ao apache hive
Data Analytics Studio (DAS)
Criar tabelas
Analise de dados
O que é Hive Lateral View e Como Usá-la
Explorando o Tez
Módulo 12 – Spark –
analisando fator de risco
Introdução
Conceitos
Noções Básicas Do Apache Spark
Configurando serviços
Módulo 13 – Relatório De Dados Com Zepelim
Introdução
Apache Zeppelin
Criar Gráficos Usando O Zeppelin
Módulo 14 – Como Processar Dados Com Apache Pig
Introdução
O Que É Pig?
Apache Pig – Operadores de diagnóstico
Aplicação Pipeline de Vendas ? usando Pig
Módulo 15 – O Que é Tez?
Processing task
Módulo 16 – DataFrame e conjunto de dados no Spark REPL
Introdução
Conceito
Implementação
Gestores de TI, Cientistas de Dados, Analistas de Business Intelligence, Engenheiros da Computação.
Conhecimento em lógica de programação e Banco de dados relacional