Tele

UNIVERSIDAD TECNOLOGICA DEL PERU
FILIAL - AREQUIPA
PRÁCTICA CALIFICADA 1
PRESENTADO POR:
JOCELYN PAREDES JIMENEZ

ACUÑA MELO EDGAR
ARANIBAR PUMACOTA JOSÉ
CURSO:
INTELIGENCIA DE NEGOCIOS
DOCENTE:
ING. LUIS ALBERTO ALFARO CASAS
AREQUIPA – PERÚ
2017-II
Definición del ETL
El nombre ETL viene del acrónimo en inglés Extract, Transform & Load.
Es el proceso que permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data
mart, o data warehouse para analizar, o en otro sistema operacional para
apoyar un proceso de negocio. Los procesos ETL generalmente se ejecutan
por la noche, para no sobrecargar los sistemas transaccionales con pesadas
consultas.
Proceso y Funciones del ETL
• Extract: de los diversos sistemas transaccionales y fuentes.
• Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
• Load: cargar la información en un repositorio centralizado.
Los procesos ETL también se pueden utilizar para la integración con
sistemas heredados (aplicaciones antiguas existentes en las organizaciones
que se han de integrar con los nuevos aplicativos). La tecnología utilizada
en dichas aplicaciones puede hacer dificil la integración con los nuevos
programas.
1. Proceso de Extracción
La primera parte del proceso ETL consiste en extraer los datos desde
los sistemas de origen. La mayoría de los proyectos de
almacenamiento de datos fusionan datos provenientes de diferentes
sistemas de origen. Cada sistema separado puede usar una
organización diferente de los datos o formatos distintos. Los formatos
de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no
relacionales u otras estructuras diferentes. La extracción convierte los
datos a un formato preparado para iniciar el proceso de
transformación.
Hay que seguir los siguientes pasos:

Extraer los datos desde los sistemas de origen.
 Analizar los datos extraídos obteniendo un chequeo.

 Interpretar este chequeo para verificar que los datos extraídos cumplen la
pauta o estructura que se esperaba. Si no fuese así, los datos deberían ser
rechazados.
 Convertir los datos a un formato preparado para iniciar el proceso de
transformación.
¿Qué hay que tener en cuenta durante el proceso de extracción?
En el momento de la extracción, análisis e interpretación: los formatos en

que se presenten los datos o los modos como éstos estén organizados pueden
ser distintos en cada sistema separado, ya que la mayoría de los proyectos de
almacenamiento de datos fusionan datos provenientes de diferentes sistemas
de origen.
2. Proceso de Transformación
La fase de transformación de un proceso de ETL aplica una serie de

reglas de negocio o funciones sobre los datos extraídos para
convertirlos en datos que serán cargados.
La fase de transformación de un proceso de ETL aplica una serie
de reglas de negocio o funciones sobre los datos extraídos para
convertirlos en datos que serán cargados. Algunas fuentes de datos
requerirán alguna pequeña manipulación de los datos. No obstante, en
otros casos pueden ser necesarias aplicar algunas de las siguientes
transformaciones:
 Seleccionar sólo ciertas columnas para su carga (por ejemplo, que

las columnas con valores nulos no se carguen).
 Traducir códigos (por ejemplo, si la fuente almacena una “H” para
Hombre y “M” para Mujer pero el destino tiene que guardar “1″
para Hombre y “2″ para Mujer).
 Codificar valores libres (por ejemplo, convertir “Hombre” en “H”
o “Sr” en “1″).
 Obtener nuevos valores calculados (por ejemplo, total_venta =
cantidad * precio).
 Unir datos de múltiples fuentes (por ejemplo, búsquedas,
combinaciones, etc.).
 Calcular totales de múltiples filas de datos (por ejemplo, ventas
totales de cada región).
 Generar campos clave en el destino.
 Transponer o pivotar (girando múltiples columnas en filas o
viceversa).
 Dividir una columna en varias (por ejemplo, columna “Nombre:
García, Miguel”; pasar a dos columnas “Nombre: Miguel” y
“Apellido: García”).
 Aplicar para formas simples o complejas, la acción que en cada
caso se requiera, como por ejemplo:
o Datos OK: entregar datos a la siguiente etapa (fase de carga).
o Datos erróneos: ejecutar políticas de tratamiento de excepciones.
3. Proceso de Carga
Dependiendo de los requerimientos de la organización, este proceso

puede abarcar una amplia variedad de acciones diferentes. Por
ejemplo, en algunas bases de datos será necesario sobrescribir la
información antigua con nuevos datos mientras que en otras, bastaría
con resumir las transacciones y almacenar un promedio de la magnitud
considerada.
Desarrollo del proceso de carga de datos
Existen dos formas básicas de desarrollar el proceso de carga:
 Acumulación simple: esta manera de cargar los datos consiste en

realizar un resumen de todas las transacciones comprendidas en el
período de tiempo seleccionado y transportar el resultado como una
única transacción hacia la data warehouse, almacenando un valor
calculado que consistirá típicamente en un promedio de la magnitud
considerada. Es la forma más sencilla y común de llevar a cabo
el proceso de carga.
 Rolling: este proceso sería el más recomendable en los casos en que
se busque mantener varios niveles de granularidad. Para ello se
almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o
diferentes niveles jerárquicos en alguna o varias de las dimensiones
de la magnitud almacenada (por ejemplo, totales diarios, totales
semanales, totales mensuales, etc.).
4.Procesamiento paralelo
Un desarrollo reciente en el software ETL es la aplicación de
procesamiento paralelo. Esto ha permitido desarrollar una serie de
métodos para mejorar el rendimiento general de los procesos ETL
cuando se trata de grandes volúmenes de datos. Hay 3 tipos principales
de paralelismos que se pueden implementar en las aplicaciones ETL;
Estos tres tipos de paralelismo no son excluyentes, sino que pueden
ser combinados para realizar una misma operación ETL.
Un desarrollo reciente en el software ETL es la aplicación de

procesamiento paralelo. Esto ha permitido desarrollar una serie de
métodos para mejorar el rendimiento general de los procesos ETL
cuando se trata de grandes volúmenes de datos. Hay 3 tipos principales
de paralelismos que se pueden implementar en las aplicaciones ETL;
Estos tres tipos de paralelismo no son excluyentes, sino que pueden
ser combinados para realizar una misma operación ETL.
Ejemplo de Aplicación
Conclusiones y Recomendaciones
Como conclusión podemos decir que los ETL son proceso que
organizan los flujos datos entre distintos sistemas en una organización
y aporta los métodos y herramientas necesarias para movilizar los
datos desde múltiples fuentes a un almacén de datos, para
transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado
“Gestión de los Datos” (Data Management).
Realizar pruebas de conexión a la base de datos para evitar errores.
Configurar bien los distintos módulos que se usarán para el proceso
ETL.

Tele

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tele

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD TECNOLOGICA DEL PERU

JOCELYN PAREDES JIMENEZ

ING. LUIS ALBERTO ALFARO CASAS

Hay que seguir los siguientes pasos:

 Analizar los datos extraídos obteniendo un chequeo.

¿Qué hay que tener en cuenta durante el proceso de extracción?

En el momento de la extracción, análisis e interpretación: los formatos en

La fase de transformación de un proceso de ETL aplica una serie de

 Seleccionar sólo ciertas columnas para su carga (por ejemplo, que

Dependiendo de los requerimientos de la organización, este proceso

Desarrollo del proceso de carga de datos

Existen dos formas básicas de desarrollar el proceso de carga:

 Acumulación simple: esta manera de cargar los datos consiste en

Un desarrollo reciente en el software ETL es la aplicación de

You might also like