Instalación y configuración de Hortonworks Sandbox

1/24/17
BIG DATA ECUADOR

Big Data Ecuador | www.bigdata-ec.com
Contenido
Distribuciones de Hadoop
Instalacin de Hortonworks
1/24/17
Para todos los que estn
buscando
implementar
proyectos de Big Data, Haddop
es la plataforma de eleccin.
Para simplificar la instalacin
de
Hadoop,
varias
implementaciones de Hadoop
han aparecido
1/24/17
1/24/17
Esas son las nicas tres distribuciones?
https://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support
1/24/17
10
1/24/17
11
12
1/24/17
13
14
1/24/17
15
Hadoop ejercicios
Agregar:
/c/Windows/System32/Drivers/etc/hosts
127.0.0.1 sandbox.hortonworks.com
Login: root
Pasword: hadoop
16
1/24/17
Copiar archivos de nuestro a Hortonworks:

scp P 2222 libros.txt root@127.0.0.1:/home/mydata
/este archivo se encuentra localizado en la carpeta de trabajo
O con filezilla conectarse con el protocolo sftp
17
# hdfs dfs -ls /
18
1/24/17
Abrir http://127.0.0.1:8080/
Usuario:maria_dev
Password: maria_dev
19
20
10
1/24/17
Actividad:
Copiar el archivo libros.txt al hdfs y localizarlo en la carpeta del user maria_dev, en una carpta llamado data
1.- Crear la carpeta en el hdfs
# hdfs dfs -mkdir /user/maria_dev/data
2.- verificar la creacion de la carpeta mediante Ambari
3.- Copiar el archivo desde el sistema de archivos local a la carpeta creada
# hdfs dfs -put libros.txt /user/maria_dev/data
4.- Verificar la copia del archivo desde Ambari
5.- Eliminar el archivo desde la linea de comandos
# hdfs dfs -rm /user/maria_dev/data/*
6.- Verificar que se encuentra eliminado el archivo
21
Los archivos eliminados se los puede encontrar en:
22
11
1/24/17
Subir el archivo con Ambari
23
24
12
1/24/17
Ejercicios
Mediante el archivo archivo libro2.txt el cual mide 401 KB, crear un archivo de
aproximadamente 10MB y
copiarlo en el hdfs /user/maria_dev/data2/ , asignarle los permisos de lecura, escritura y
ejecucin para todos los usuarios, efectuar esta actividad mediante lnea de comandos y
mediante Ambari.
Para crear el archivo se puede utilizar el comando cat
25
Monitorear los nodos
26
13
1/24/17
27
28
14
1/24/17
Probemos otra vez, pero antes abramos el url:

http://localhost:8088/cluster
29
http://127.0.0.1:19888/jobhistory/job/job_1485177876763_0001
30
15
1/24/17
31
32
16
1/24/17
Ejercicios (monitorear los jobs en cada actividad)

Bailey-Borwein-Plouffe
# yarn jar hadoop-mapreduce-examples.jar sudoku puzzle1.data
33
Resolver
34
17
1/24/17
yarn jar hadoop-mapreduce-examples.jar wordcount hdfs://sandbox.hortonworks.com:8020/user/maria_dev/data/libros.txt /home/output.txt
35
36
18
1/24/17
Paquetes instalados
37
http://hortonworks.com/apache/
38
19
1/24/17
Ambari
Ambari es una interfaz web donada por Hortonworks a Apache
Software Foundation.
Con esta herramienta podemos gestionar las aplicaciones
instaladas en el ecosistema de Hadoop
39
HDFS
Hadoop distributed file system
40
20
1/24/17
HDFS
41
YARN (yet another resource negotiator)
42
21
1/24/17
YARN
MapReduce2
43
Vinculado con Hadoop 2.0
44
22
1/24/17
MapReduce2
45
Tez
Tez es una propuesta para el desarrollo de aplicaciones genricas que pueden ser utilizadas para
procesar datos complejos de manera automatizada, Tez es una herramienta la cual no est orientada
directamente al usuario fianl, sino a los desarrolladores de aplicaciones para data analytics.
46
23
1/24/17
Tez
47
Hive
Apache Hive es un framework originalmente creado por Facebook que sirve para trabajar con el
HDFS Hadoop Distributed File System que nos facilita enormemente el trabajo a la hora de
trabajar con datos. Su funcionamiento es sencillo, a travs de querys SQL (HiveQL) podemos
lanzar consultas que sern traducidas a MapReduce jobs.
.
48
24
1/24/17
Hive
49
HBase
Es una base de datos no relacional basada en Google BigTable. Es la base de datos por default de Hadoop
50
25
1/24/17
HBase
51
Pig
Pig es una plataforma para construir data flows para extaer, transformar y cargar
datasets (ETL).
Se basa en el lengujae de programacin Pig Latin. Pig Nos Permite generar jobs
MapReduce sin necesidad de conocer todas las complejidades de MapReduce
52
26
1/24/17
Pig
53
Sqoop
Es un sistema el cual se encuentra entre nuestro HDFS y

nuestras RDBMS y nos permite transportar informacin desde
nuestro HDFS hasta el RDBMS.
54
27
1/24/17
Oozie
Es un organizador y programador de eventos basado en flujo de

datos.
55
Falcon
Apache Falcon es un framework para adminstrar el ciclo de vida

de la data.
56
28
1/24/17
Storm
57
Flume
Flume nos permite cargar data, agregar y mover grandes
volumenes de informacin. Es robusto y tolerante a fallos,
adems nos permite aplicaiones analticas en lnea.
58
29
1/24/17
Atlas
Atlas nos sirve para intercambiar informacin entre los
diferentes elementos del stack de Hadoop
59
Kafka
Nos permite hacer anlisis de datos en streaming
60
30
1/24/17
Knox
Nos permite aplicar seguridades a nuestros nodos de Hadoop.

Nos provee un nico punto de acceso para acceder a nuestro
cluster.
61
Ranger
Apache Argus Ranger es un sistema de seguridad avanzado para
nuestro cluster de Hadoop.
62
31
1/24/17
Spark
Es un framework de anlisis de datos desarrollado por la Universidad de Berkeley y creando una capa
sobre HDFS para explotar al maximo su potencialidad. Es una alternativa a MapReduce de Hadoop,
siendo hasta 10 veces ms rpido en sus implementaciones.
Spark es adems el motor tras Shark, el cual es una implementacin 100 veces ms rpida que Hive
63
Zeppelin
Zeppelin es una herramienta web colaborativa para data
scientist que analizar y grandes volumenes de informacin.
64
32
1/24/17
Slider
Slider es un framework para el desarrollo y manejo de
aplicaciones
65
66
33
1/24/17
67
68
34
1/24/17
69
70
35

Instalación y configuración de Hortonworks Sandbox

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Instalación y configuración de Hortonworks Sandbox

Uploaded by

Copyright:

Available Formats

1/24/17

BIG DATA ECUADOR

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Copiar archivos de nuestro a Hortonworks:

Big Data Ecuador | www.bigdata-ec.com

# hdfs dfs -ls /

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Los archivos eliminados se los puede encontrar en:

Big Data Ecuador | www.bigdata-ec.com

Subir el archivo con Ambari

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Monitorear los nodos

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Probemos otra vez, pero antes abramos el url:

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Ejercicios (monitorear los jobs en cada actividad)

# yarn jar hadoop-mapreduce-examples.jar sudoku puzzle1.data

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

yarn jar hadoop-mapreduce-examples.jar wordcount hdfs://sandbox.hortonworks.com:8020/user/maria_dev/data/libros.txt /home/output.txt

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

YARN (yet another resource negotiator)

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Vinculado con Hadoop 2.0

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com