You are on page 1of 35

1/24/17

BIG DATA ECUADOR


Big Data Ecuador | www.bigdata-ec.com

Contenido

Distribuciones de Hadoop
Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

1/24/17

Distribuciones de Hadoop
Para todos los que estn
buscando
implementar
proyectos de Big Data, Haddop
es la plataforma de eleccin.
Para simplificar la instalacin
de
Hadoop,
varias
implementaciones de Hadoop
han aparecido
Big Data Ecuador | www.bigdata-ec.com

Distribuciones de Hadoop

Big Data Ecuador | www.bigdata-ec.com

1/24/17

Big Data Ecuador | www.bigdata-ec.com

Big Data Ecuador | www.bigdata-ec.com

1/24/17

Distribuciones de Hadoop
Esas son las nicas tres distribuciones?
https://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support

Big Data Ecuador | www.bigdata-ec.com

Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

1/24/17

Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

10

1/24/17

Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

11

Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

12

1/24/17

Big Data Ecuador | www.bigdata-ec.com

13

Big Data Ecuador | www.bigdata-ec.com

14

1/24/17

Big Data Ecuador | www.bigdata-ec.com

15

Hadoop ejercicios
Agregar:

/c/Windows/System32/Drivers/etc/hosts

127.0.0.1 sandbox.hortonworks.com

Big Data Ecuador | www.bigdata-ec.com

Login: root
Pasword: hadoop

16

1/24/17

Copiar archivos de nuestro a Hortonworks:


scp P 2222 libros.txt root@127.0.0.1:/home/mydata
/este archivo se encuentra localizado en la carpeta de trabajo
O con filezilla conectarse con el protocolo sftp

Big Data Ecuador | www.bigdata-ec.com

17

# hdfs dfs -ls /

Big Data Ecuador | www.bigdata-ec.com

18

1/24/17

Abrir http://127.0.0.1:8080/
Usuario:maria_dev
Password: maria_dev

Big Data Ecuador | www.bigdata-ec.com

19

Big Data Ecuador | www.bigdata-ec.com

20

10

1/24/17

Actividad:
Copiar el archivo libros.txt al hdfs y localizarlo en la carpeta del user maria_dev, en una carpta llamado data
1.- Crear la carpeta en el hdfs
# hdfs dfs -mkdir /user/maria_dev/data
2.- verificar la creacion de la carpeta mediante Ambari
3.- Copiar el archivo desde el sistema de archivos local a la carpeta creada
# hdfs dfs -put libros.txt /user/maria_dev/data
4.- Verificar la copia del archivo desde Ambari
5.- Eliminar el archivo desde la linea de comandos
# hdfs dfs -rm /user/maria_dev/data/*
6.- Verificar que se encuentra eliminado el archivo
Big Data Ecuador | www.bigdata-ec.com

21

Los archivos eliminados se los puede encontrar en:

Big Data Ecuador | www.bigdata-ec.com

22

11

1/24/17

Subir el archivo con Ambari

Big Data Ecuador | www.bigdata-ec.com

23

Big Data Ecuador | www.bigdata-ec.com

24

12

1/24/17

Ejercicios
Mediante el archivo archivo libro2.txt el cual mide 401 KB, crear un archivo de
aproximadamente 10MB y
copiarlo en el hdfs /user/maria_dev/data2/ , asignarle los permisos de lecura, escritura y
ejecucin para todos los usuarios, efectuar esta actividad mediante lnea de comandos y
mediante Ambari.
Para crear el archivo se puede utilizar el comando cat

Big Data Ecuador | www.bigdata-ec.com

25

Monitorear los nodos

Big Data Ecuador | www.bigdata-ec.com

26

13

1/24/17

Big Data Ecuador | www.bigdata-ec.com

27

Big Data Ecuador | www.bigdata-ec.com

28

14

1/24/17

Probemos otra vez, pero antes abramos el url:


http://localhost:8088/cluster

Big Data Ecuador | www.bigdata-ec.com

29

http://127.0.0.1:19888/jobhistory/job/job_1485177876763_0001

Big Data Ecuador | www.bigdata-ec.com

30

15

1/24/17

Big Data Ecuador | www.bigdata-ec.com

31

Big Data Ecuador | www.bigdata-ec.com

32

16

1/24/17

Ejercicios (monitorear los jobs en cada actividad)


Bailey-Borwein-Plouffe

# yarn jar hadoop-mapreduce-examples.jar sudoku puzzle1.data

Big Data Ecuador | www.bigdata-ec.com

33

Resolver

Big Data Ecuador | www.bigdata-ec.com

34

17

1/24/17

yarn jar hadoop-mapreduce-examples.jar wordcount hdfs://sandbox.hortonworks.com:8020/user/maria_dev/data/libros.txt /home/output.txt

Big Data Ecuador | www.bigdata-ec.com

35

Big Data Ecuador | www.bigdata-ec.com

36

18

1/24/17

Paquetes instalados

Big Data Ecuador | www.bigdata-ec.com

37

http://hortonworks.com/apache/

Big Data Ecuador | www.bigdata-ec.com

38

19

1/24/17

Ambari
Ambari es una interfaz web donada por Hortonworks a Apache
Software Foundation.
Con esta herramienta podemos gestionar las aplicaciones
instaladas en el ecosistema de Hadoop

Big Data Ecuador | www.bigdata-ec.com

39

HDFS
Hadoop distributed file system

Big Data Ecuador | www.bigdata-ec.com

40

20

1/24/17

HDFS

Big Data Ecuador | www.bigdata-ec.com

41

YARN (yet another resource negotiator)

Big Data Ecuador | www.bigdata-ec.com

42

21

1/24/17

YARN

Big Data Ecuador | www.bigdata-ec.com

MapReduce2

Big Data Ecuador | www.bigdata-ec.com

43

Vinculado con Hadoop 2.0

44

22

1/24/17

MapReduce2

Big Data Ecuador | www.bigdata-ec.com

45

Tez
Tez es una propuesta para el desarrollo de aplicaciones genricas que pueden ser utilizadas para
procesar datos complejos de manera automatizada, Tez es una herramienta la cual no est orientada
directamente al usuario fianl, sino a los desarrolladores de aplicaciones para data analytics.

Big Data Ecuador | www.bigdata-ec.com

46

23

1/24/17

Tez

Big Data Ecuador | www.bigdata-ec.com

47

Hive
Apache Hive es un framework originalmente creado por Facebook que sirve para trabajar con el
HDFS Hadoop Distributed File System que nos facilita enormemente el trabajo a la hora de
trabajar con datos. Su funcionamiento es sencillo, a travs de querys SQL (HiveQL) podemos
lanzar consultas que sern traducidas a MapReduce jobs.
.

Big Data Ecuador | www.bigdata-ec.com

48

24

1/24/17

Hive

Big Data Ecuador | www.bigdata-ec.com

49

HBase
Es una base de datos no relacional basada en Google BigTable. Es la base de datos por default de Hadoop

Big Data Ecuador | www.bigdata-ec.com

50

25

1/24/17

HBase

Big Data Ecuador | www.bigdata-ec.com

51

Pig
Pig es una plataforma para construir data flows para extaer, transformar y cargar
datasets (ETL).
Se basa en el lengujae de programacin Pig Latin. Pig Nos Permite generar jobs
MapReduce sin necesidad de conocer todas las complejidades de MapReduce

Big Data Ecuador | www.bigdata-ec.com

52

26

1/24/17

Pig

Big Data Ecuador | www.bigdata-ec.com

53

Sqoop

Es un sistema el cual se encuentra entre nuestro HDFS y


nuestras RDBMS y nos permite transportar informacin desde
nuestro HDFS hasta el RDBMS.

Big Data Ecuador | www.bigdata-ec.com

54

27

1/24/17

Oozie

Es un organizador y programador de eventos basado en flujo de


datos.

Big Data Ecuador | www.bigdata-ec.com

55

Falcon

Apache Falcon es un framework para adminstrar el ciclo de vida


de la data.

Big Data Ecuador | www.bigdata-ec.com

56

28

1/24/17

Storm

Big Data Ecuador | www.bigdata-ec.com

57

Flume
Flume nos permite cargar data, agregar y mover grandes
volumenes de informacin. Es robusto y tolerante a fallos,
adems nos permite aplicaiones analticas en lnea.

Big Data Ecuador | www.bigdata-ec.com

58

29

1/24/17

Atlas
Atlas nos sirve para intercambiar informacin entre los
diferentes elementos del stack de Hadoop

Big Data Ecuador | www.bigdata-ec.com

59

Kafka
Nos permite hacer anlisis de datos en streaming

Big Data Ecuador | www.bigdata-ec.com

60

30

1/24/17

Knox

Nos permite aplicar seguridades a nuestros nodos de Hadoop.


Nos provee un nico punto de acceso para acceder a nuestro
cluster.

Big Data Ecuador | www.bigdata-ec.com

61

Ranger
Apache Argus Ranger es un sistema de seguridad avanzado para
nuestro cluster de Hadoop.

Big Data Ecuador | www.bigdata-ec.com

62

31

1/24/17

Spark
Es un framework de anlisis de datos desarrollado por la Universidad de Berkeley y creando una capa
sobre HDFS para explotar al maximo su potencialidad. Es una alternativa a MapReduce de Hadoop,
siendo hasta 10 veces ms rpido en sus implementaciones.
Spark es adems el motor tras Shark, el cual es una implementacin 100 veces ms rpida que Hive

Big Data Ecuador | www.bigdata-ec.com

63

Zeppelin
Zeppelin es una herramienta web colaborativa para data
scientist que analizar y grandes volumenes de informacin.

Big Data Ecuador | www.bigdata-ec.com

64

32

1/24/17

Slider
Slider es un framework para el desarrollo y manejo de
aplicaciones

Big Data Ecuador | www.bigdata-ec.com

65

Big Data Ecuador | www.bigdata-ec.com

66

33

1/24/17

Instalacin de Hortonworks

Big Data Ecuador | www.bigdata-ec.com

67

Big Data Ecuador | www.bigdata-ec.com

68

34

1/24/17

Big Data Ecuador | www.bigdata-ec.com

69

Big Data Ecuador | www.bigdata-ec.com

70

35

You might also like