Professional Documents
Culture Documents
Contenido
Distribuciones de Hadoop
Instalacin de Hortonworks
1/24/17
Distribuciones de Hadoop
Para todos los que estn
buscando
implementar
proyectos de Big Data, Haddop
es la plataforma de eleccin.
Para simplificar la instalacin
de
Hadoop,
varias
implementaciones de Hadoop
han aparecido
Big Data Ecuador | www.bigdata-ec.com
Distribuciones de Hadoop
1/24/17
1/24/17
Distribuciones de Hadoop
Esas son las nicas tres distribuciones?
https://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support
Instalacin de Hortonworks
1/24/17
Instalacin de Hortonworks
Instalacin de Hortonworks
10
1/24/17
Instalacin de Hortonworks
11
Instalacin de Hortonworks
12
1/24/17
13
14
1/24/17
15
Hadoop ejercicios
Agregar:
/c/Windows/System32/Drivers/etc/hosts
127.0.0.1 sandbox.hortonworks.com
Login: root
Pasword: hadoop
16
1/24/17
17
18
1/24/17
Abrir http://127.0.0.1:8080/
Usuario:maria_dev
Password: maria_dev
19
20
10
1/24/17
Actividad:
Copiar el archivo libros.txt al hdfs y localizarlo en la carpeta del user maria_dev, en una carpta llamado data
1.- Crear la carpeta en el hdfs
# hdfs dfs -mkdir /user/maria_dev/data
2.- verificar la creacion de la carpeta mediante Ambari
3.- Copiar el archivo desde el sistema de archivos local a la carpeta creada
# hdfs dfs -put libros.txt /user/maria_dev/data
4.- Verificar la copia del archivo desde Ambari
5.- Eliminar el archivo desde la linea de comandos
# hdfs dfs -rm /user/maria_dev/data/*
6.- Verificar que se encuentra eliminado el archivo
Big Data Ecuador | www.bigdata-ec.com
21
22
11
1/24/17
23
24
12
1/24/17
Ejercicios
Mediante el archivo archivo libro2.txt el cual mide 401 KB, crear un archivo de
aproximadamente 10MB y
copiarlo en el hdfs /user/maria_dev/data2/ , asignarle los permisos de lecura, escritura y
ejecucin para todos los usuarios, efectuar esta actividad mediante lnea de comandos y
mediante Ambari.
Para crear el archivo se puede utilizar el comando cat
25
26
13
1/24/17
27
28
14
1/24/17
29
http://127.0.0.1:19888/jobhistory/job/job_1485177876763_0001
30
15
1/24/17
31
32
16
1/24/17
33
Resolver
34
17
1/24/17
35
36
18
1/24/17
Paquetes instalados
37
http://hortonworks.com/apache/
38
19
1/24/17
Ambari
Ambari es una interfaz web donada por Hortonworks a Apache
Software Foundation.
Con esta herramienta podemos gestionar las aplicaciones
instaladas en el ecosistema de Hadoop
39
HDFS
Hadoop distributed file system
40
20
1/24/17
HDFS
41
42
21
1/24/17
YARN
MapReduce2
43
44
22
1/24/17
MapReduce2
45
Tez
Tez es una propuesta para el desarrollo de aplicaciones genricas que pueden ser utilizadas para
procesar datos complejos de manera automatizada, Tez es una herramienta la cual no est orientada
directamente al usuario fianl, sino a los desarrolladores de aplicaciones para data analytics.
46
23
1/24/17
Tez
47
Hive
Apache Hive es un framework originalmente creado por Facebook que sirve para trabajar con el
HDFS Hadoop Distributed File System que nos facilita enormemente el trabajo a la hora de
trabajar con datos. Su funcionamiento es sencillo, a travs de querys SQL (HiveQL) podemos
lanzar consultas que sern traducidas a MapReduce jobs.
.
48
24
1/24/17
Hive
49
HBase
Es una base de datos no relacional basada en Google BigTable. Es la base de datos por default de Hadoop
50
25
1/24/17
HBase
51
Pig
Pig es una plataforma para construir data flows para extaer, transformar y cargar
datasets (ETL).
Se basa en el lengujae de programacin Pig Latin. Pig Nos Permite generar jobs
MapReduce sin necesidad de conocer todas las complejidades de MapReduce
52
26
1/24/17
Pig
53
Sqoop
54
27
1/24/17
Oozie
55
Falcon
56
28
1/24/17
Storm
57
Flume
Flume nos permite cargar data, agregar y mover grandes
volumenes de informacin. Es robusto y tolerante a fallos,
adems nos permite aplicaiones analticas en lnea.
58
29
1/24/17
Atlas
Atlas nos sirve para intercambiar informacin entre los
diferentes elementos del stack de Hadoop
59
Kafka
Nos permite hacer anlisis de datos en streaming
60
30
1/24/17
Knox
61
Ranger
Apache Argus Ranger es un sistema de seguridad avanzado para
nuestro cluster de Hadoop.
62
31
1/24/17
Spark
Es un framework de anlisis de datos desarrollado por la Universidad de Berkeley y creando una capa
sobre HDFS para explotar al maximo su potencialidad. Es una alternativa a MapReduce de Hadoop,
siendo hasta 10 veces ms rpido en sus implementaciones.
Spark es adems el motor tras Shark, el cual es una implementacin 100 veces ms rpida que Hive
63
Zeppelin
Zeppelin es una herramienta web colaborativa para data
scientist que analizar y grandes volumenes de informacin.
64
32
1/24/17
Slider
Slider es un framework para el desarrollo y manejo de
aplicaciones
65
66
33
1/24/17
Instalacin de Hortonworks
67
68
34
1/24/17
69
70
35