Professional Documents
Culture Documents
FILIAL - AREQUIPA
PRÁCTICA CALIFICADA 1
PRESENTADO POR:
CURSO:
INTELIGENCIA DE NEGOCIOS
DOCENTE:
AREQUIPA – PERÚ
2017-II
Definición del ETL
El nombre ETL viene del acrónimo en inglés Extract, Transform & Load.
Es el proceso que permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data
mart, o data warehouse para analizar, o en otro sistema operacional para
apoyar un proceso de negocio. Los procesos ETL generalmente se ejecutan
por la noche, para no sobrecargar los sistemas transaccionales con pesadas
consultas.
Proceso y Funciones del ETL
• Extract: de los diversos sistemas transaccionales y fuentes.
• Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
• Load: cargar la información en un repositorio centralizado.
Los procesos ETL también se pueden utilizar para la integración con
sistemas heredados (aplicaciones antiguas existentes en las organizaciones
que se han de integrar con los nuevos aplicativos). La tecnología utilizada
en dichas aplicaciones puede hacer dificil la integración con los nuevos
programas.
1. Proceso de Extracción
La primera parte del proceso ETL consiste en extraer los datos desde
los sistemas de origen. La mayoría de los proyectos de
almacenamiento de datos fusionan datos provenientes de diferentes
sistemas de origen. Cada sistema separado puede usar una
organización diferente de los datos o formatos distintos. Los formatos
de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no
relacionales u otras estructuras diferentes. La extracción convierte los
datos a un formato preparado para iniciar el proceso de
transformación.
4.Procesamiento paralelo
Un desarrollo reciente en el software ETL es la aplicación de
procesamiento paralelo. Esto ha permitido desarrollar una serie de
métodos para mejorar el rendimiento general de los procesos ETL
cuando se trata de grandes volúmenes de datos. Hay 3 tipos principales
de paralelismos que se pueden implementar en las aplicaciones ETL;
Estos tres tipos de paralelismo no son excluyentes, sino que pueden
ser combinados para realizar una misma operación ETL.
Ejemplo de Aplicación
Conclusiones y Recomendaciones
Como conclusión podemos decir que los ETL son proceso que
organizan los flujos datos entre distintos sistemas en una organización
y aporta los métodos y herramientas necesarias para movilizar los
datos desde múltiples fuentes a un almacén de datos, para
transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado
“Gestión de los Datos” (Data Management).
Realizar pruebas de conexión a la base de datos para evitar errores.
Configurar bien los distintos módulos que se usarán para el proceso
ETL.