You are on page 1of 68

Datawarehousing

Business Intelligence
software que le posibilita a los usuarios la
obtencin de informaciones corporativas
mas fcilmente.
El software BI debe permitir que sean
derivadas las transacciones y sumarios que
el usuario necesite, sin que se precise
conocer cuales son las fuentes de esos datos
B.I.: recursos y herramientas

Fuentes de datos : warehouses, data marts,


etc
Herramientas de administracin de datos
Herramientas de extraccin y consulta
Herramientas de modelizacin (Data
Mining)
Evolucin:
Business Data to Business Information
Etapa Pregunta de Tecnologa Proveedores Caractersticas
Negocio disponible

Data Cul fue el total Computadoras, IBM, NCR, Retrospectivo


Collection de ventas en cintas, discos etc Esttico
(1960) Capital Federal y
GBA?
Data Access Cules fueron RDBMS Oracle, Retrospectivo
(1980) las ventas por SQL Informix, Dinmico
sucursal en Sybase, etc
Capital Federal y
GBA?
Evolucin:
Business Data to Business Information
Etapa Pregunta de Tecnologa Proveedores Caractersticas
Negocio disponible

Data Cul fue el OLAP Pilot, Retrospectivo


Navigation total de DW Discoverer, Dinmico
(1990) ventas en Arbor, etc Niveles
Capital mltiples
Federal?
Drill down a
GBA
Data Cmo Algoritmos Intelligent Prospectivo.
Mining evolucionarn avanzados Miner (IBM) Proactivo
(2000) las ventas en Multiprocesado SGI
el prximo res SAS, etc
ao?
Data Warehouse
El objetivo de los DWs (almacenamiento de
datos) es almacenar los datos oriundos de
los diversos sistemas de informacin
transaccionales en varios grados de
relaciones y sumarios, con el fin de facilitar
y agilizar los procesos de toma de decisin
por diferentes niveles gerenciales.
Orientados al usuario
Los datos almacenados en el Data
Warehouse proveen informacin sobre un
tema en particular en vez de atender la
operatoria de gestin de la compaa.
Integridad
Esos datos deben ser tratados (identificados,
catalogados, recolectados, a disponibilidad,
transformados en informaciones) e
integrados permitiendo diversas formas de
consultas, a travs de mecanismos
amistosos de las herramientas de los
usuarios.
Variacin en el tiempo
Los DWs son normalmente actualizados en
Batch (actualizados una o algunas veces por
da y no conteniendo los datos de las
transacciones de la empresa de manera on-
line) y pueden contener grandes cantidades
de datos.
Alcance
Los Datamarts(DMs) son DWs de alcance
limitados, dicho de otra manera son
pequeos repositorios de datos especficos
para cada rea de negocios o departamentos
de las empresas.
Data Warehouse
Tanto los DWs como los DMs forman la
base a partir de la cual las empresas pueden
utilizar las herramientas BI Business
Intelligence -para la extraccin de
informaciones gerenciales
Datos operacionales y Data
Warehouse
Datos Data Warehouse
operacionales
Contenido Valores elementales Datos sumarizados,
derivados

Organizacin Por aplicacin Por tema

Estabilidad Dinmicos Estticos hasta su


actualizacin
Datos operacionales y Data
Warehouse
Datos Data Warehouse
operacionales
Estructura Optimizada para Optimizada para
uso transaccional querys complejos
(NORMALIZADA) (DESNORMALIZADA)
Frecuencia de Alta Media y baja

acceso
Tipo de acceso Lectura / escritura Lectura
Actualizacin Sumarizacin
campo por campo
Datos operacionales y Data
Warehouse
Datos Data
operacionales Warehouse
Uso Predecible Ad hoc
Repetitivo Heurstico

Tiempo de Segundos Segundos a minutos

respuesta
Problemas con los datos
Demasiados datos
datos corruptos o con ruido
datos redundantes (requieren factorizacin)
datos irrelevantes
excesiva cantidad de datos
Problemas con los datos
Pocos datos
atributos perdidos (missings)
valores perdidos
poca cantidad de datos
Datos fracturados
datos incompatibles
mltiples fuentes de datos
Cuntos datos son necesarios?
Cuntas filas?.
Cuntas columnas?.
Cunta historia?
Regla general : cuanto ms datos, mejor
En la prctica : condicionado a los recursos
de obtencin y procesamiento.
Data Marts
Los Datamarts(DMs) son DWs de alcance
limitados, dicho de otra manera son
pequeos repositorios de datos especficos
para cada rea de negocios o departamentos
de las empresas.
Explotacin del Datawarehouse
Report
Query,
Metadata EIS
Extraccin,
clean up y carga
de datos
OLAP

DW

Data
Datos Mining
operacionales y
externos
Componentes del DW
Fuentes de datos
Procedimientos de Extraccin ETL
Procedimientos de Transformacin
Procedimientos de carga (Loading)
Soporte fsico de los datos (DBMS)
Herramientas de explotacin : OLAP,
reporting, Data Mining, etc.
ETL
Procedimientos (herramientas) destinados a
obtener los datos de las fuentes
operacionales, limpiarlos, convertirlos a los
formatos de utilizacin y cargarlos en el
repositorio final.
Integridad de datos
Los datos cumplen condiciones de
integridad cuando se ajustan a todos los
stndares de valor y completitud.
Todos los datos del DW son correctos
El DW est completo (no existen ms datos
fuera de l).
Integridad de datos
La credibilidad del DW depende de la
integridad de sus datos
El uso del DW depende de la percepcin de
los usuarios y de la confianza que tengan en
su contenido.
De la integridad de datos depende el xito
del proyecto.
Controles de Integridad
Controles de Prevencin : controlan la
integridad antes de cargar los datos en el
DW.
Controles de Deteccin : aseguran la
exactitud y completitud de la informacin
una vez cargada en el DW.
Data Process Flow

Data Process Flow Stages:


1.Data Migration
2.Cleansing
3.Transformation
4.Loading

5.Reconciliation
Etapas del proceso ETL
Migracin de datos
Limpieza
Transformacin
(clculos,agregados,sumarizaciones,desnormalizacin).

Carga
Conciliacin - Validacin
Migracin
Staging area : rea de trabajo fuera del DW.
El propsito de la migracin es mover los
datos de los sistemas operacionales a las
reas de trabajo (staging areas).
NO se debe mover datos innecesarios
(control preventivo).
Limpieza (Data cleaning)
Corregir, estandarizar y completar los datos
Identificar datos redundantes
Identificar valores atpicos (outliers)
Identificar valores perdidos (missings)
Limpieza (actividades)
Se debe uniformar las tablas de cdigos de
los sistemas operacionales y simplificar
esquemas de codificacin
Datos complejos, que representan varios
atributos a la vez, deben ser particionados.
Transformacin
Son procesos destinados a adaptar los datos al
modelo lgico del DW
Se generan reglas de transformacin.
Las reglas deben validarse con los usuarios del DW
Transformacin
Generalmente el DW no contiene
informacin de las entidades que - en los
sistemas operacionales - son muy dinmicas
y sufren frecuentes cambios.
Si es necesario se utilizan Snapshots (fotos
instantneas)
Transformacin
La des-normalizacin de los datos tiene
como propsito mejorar la performance.
Otro propsito es el de reflejar relaciones
estticas,es decir, que no cambian en una
perspectiva histrica. Por ejemplo: producto
- precio vigente al momento de facturacin.
Transformacin (sumarizaciones)
Los datos sumarizados aceleran los tiempos de
anlisis.
Las sumarizaciones tambin ocultan complejidad
de los datos.
Las sumarizaciones pueden incluir joins de
mltiples tablas
Las sumarizaciones proveen mltiples vistas del
mismo conjunto de datos detallados (dimensiones).
Estructura dimensional
Sumarizaciones (mantenimiento)
El mantenimiento de las sumarizaciones es una
tarea crtica.
El DW debe actualizarlas a medida que se cargan
nuevos datos.
Debe existir alguna forma de navegar los datos
hasta el nivel de detalle (drill down).
La definicin de la granularidad es un problema
serio de diseo.
El nivel de granularidad:
problema de diseo del DW

Cal es la unidad de tratamiento (fila)


Qu es un cliente? Una cuenta, un
individuo, una familia
Cmo se sumariza la dimensin tiempo?
Das, semanas, meses ?
Carga (Loading)
Dos aproximaciones:
Full Refresh
Incremental
Aunque el Full Refresh parece ms slido
desde el punto de vista de la integridad de
los datos, a medida que crece el DW se
vuelve cada vez ms difcil de realizar.
Controles de deteccin
La validacin de la carga del DW identifica
problemas en los datos no detectados en las
etapas anteriores.
Existen dos maneras de hacer la validacin:
completa (al final del proceso)
por etapas a medida que se cargan los datos
Controles de deteccin
Los controles incluyen reportes que
comparan los datos del DW con las fuentes
operacionales a travs de:
totales de control
nmero de registros cargados
valores originales vs valores limpios
(transformados), etc.
Herramientas ETL
Pueden ser procesos manuales diseados a medida
(querys SQL, programas en Visual Basic, etc).
Existen herramientas que proporcionan interfaces
visuales para definir joins, transformaciones,
agregados, etc. sobre las plataformas mas comunes.
Modelado de datos

Data Modelling Techniques for Data


Warehousing : Cap 6 y 7
La pregunta central

De qu modo deben disearse las bases de


datos que conforman un Data Warehouse
para soportar eficientemente los
requerimientos de los usuarios?
Por qu es importante?
Visualizacin del universo del negocio
Modelo de abstraccin de las preguntas
que los usuarios necesitan responder
Diseo del plan de implantacin del Data
Warehouse
Dos tcnicas
Modelo E-R Modelo dimensional

Entidades Hechos
Atributos Dimensiones
Relaciones Medidas
Modelo E-R
Modelo dimensional: HECHOS
Hechos : coleccin de items de datos y
datos de contexto. Cada hecho representa
un item de negocio, una transaccin o un
evento
Los hechos se registran en las tablas
CENTRALES del DW
Modelo dimensional:
DIMENSION
Una dimensin es una coleccin de
miembros o unidades o individuos del
mismo tipo
Cada punto de entrada de la tabla de
HECHOS est conectado a una
DIMENSION
Determinan el contexto de los HECHOS
Modelo dimensional:
DIMENSIONES
Se utilizan como parmetros para los
anlisis OLAP
Dimensiones habituales son:
Tiempo
Geografa
Cliente
Vendedor
Modelo dimensional:
DIMENSIONES - Miembros
Dimensin Miembro
Tiempo Meses, Trimestre, Aos
Geografa Pas, Regin, Ciudad
Cliente Id Cliente
Vendedor Id Vendedor
Modelo dimensional
DIMENSIONES - Jerarqua
Modelo dimensional
DIMENSIONES : Medidas
Medida : es un atributo numrico de un
hecho que representa la performance o
comportamiento del negocio relativo a la
dimensin
Ejemplos:
Ventas en $$
Cantidad de productos
Total de transacciones, etc.
Visualizacin de un modelo
dimensional
DW - OLAP
El modelo dimensional es ideal para
soportar las 4 operaciones bsicas de la
tecnologa OLAP:

Relacionadas con la granularidad: ROLL UP -


DRILL DOWN
Navegacin por las dimensiones : SLICE -
DICE
Drill Down - Roll Up
Slice and Dice
Modelos bsicos dimensionales

STAR SNOWFLAKE
Star
SnowFlake
E-R - Modelo dimensional
El modelo dimensional puede verse como
un caso particular del modelo de ER
Foreing keys Dimension
Hecho Entidad
Datawarehousing process
Manage the Project
Es un proceso cclico e iterativo
Refiere al manejo del PROYECTO, no al
manejo del Warehouse (ONGOING)
Define the project
Qu se necesita analizar y por qu?Cul
es el alcance del proyecto?
El contexto de definicin y los alcances del
proyecto DEBEN permitir
FLEXIBILIDAD. NO deben ser demasiado
especficos.
Requirements gathering
Quin (personas, grupos, usuarios, etc)
Qu (se quiere analizar)
Por qu
Cundo (factores de oportunidad en el tiempo)
Dnde (factores geogrficos)
Cmo definir las medidas
Source driven
Los requerimientos se definen utilizando las
fuentes de datos operacionales.
La mayor ventaja es que de antemano se
conoce que todos los datos podrn ser
provistos ya que se sabe qu est disponible
Source driven
Se minimiza el tiempo de interaccin con
los usuarios en las primeras etapas (se gana
velocidad).
El riesgo es producir un conjunto incorrecto
de requerimientos por la poca participacin
del usuario
El usuario recibe lo que tenemos
User driven
Los requerimientos se definen a partir de las
necesidades del usuario.
Conduce a proyectos ms acotados pero
probablemente ms tiles
Tiene como desventaja que al no limitarse el
pedido del usuario pueden solicitarse
objetivos imposibles
Relevamiento:
Source driven vs User driven
Source driven - User driven
Data Mart : User driven

Global Data Warehouse : Source driven


para partir el proyecto en reas temticas.
Luego para cada rea se utiliza un enfoque
User driven

You might also like