You are on page 1of 11

Introduccin al Data Warehousing.

Tabla de contenido

Contenido
Introduccin ........................................................................................................................................ 2
1. ASPECTOS TERICOS ....................................................................................................................... 3
1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING ............................................................. 3
1.2 Problemas que dan origen a un Data WareHouse. ......................................................... 3
1.3 Beneficios asociados al Data WareHouse ....................................................................... 3
1.4 Diferentes tipos de informacin ..................................................................................... 4
1.5 Sistemas de Soporte de Decisiones..................................................................................... 4
1.6 Arquitectura Data Warehouse ............................................................................................ 5
1.6.3 Fuentes de datos ......................................................................................................... 5
1.6.4 Extraccin, transformacin y carga (ETL) .................................................................... 5
1.6.5 Ambiente Data Warehouse ......................................................................................... 7
1.6.6 Data Mart .................................................................................................................... 7
1.6.7 Herramientas de acceso y uso .................................................................................... 7
1.6.8 Metadatos ................................................................................................................... 7
1.7 Business Intelligence ........................................................................................................... 8
1.7.1 Datos, informacin, conocimiento .............................................................................. 8

1
Introduccin
En la actualidad, el dinmico mundo de los negocios plantea la necesidad de disponer de
un acceso rpido y sencillo a informacin para la toma de decisiones. Dicha informacin
debe estar estructurada y elaborada de acuerdo a parmetros de calidad, a fin de
posibilitar una adaptacin gil y precisa a las fluctuaciones del ambiente externo.
Las empresas disponen, para la gestin de sus procesos de negocio, de sistemas
transaccionales corporativos que manejan enormes cantidades de datos, organizados de
forma tal que puedan ser utilizados por las aplicaciones operacionales existentes. Los
niveles gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el
funcionamiento de la empresa. Frecuentemente se basan en su experiencia, utilizando un
enfoque subjetivo del proceso decisorio. Este enfoque no es apto para las condiciones del
mundo actual en el que los sistemas de gestin de calidad vigentes han demostrado la
importancia de la toma de decisiones basada en cifras, datos y hechos.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque
racional, basados en informacin confiable y oportuna. Consiste bsicamente en la
transformacin de los datos operacionales en informacin til para decidir. El uso del Data
Warehouse permite tambin encontrar relaciones ocultas entre los datos y predecir el
comportamiento futuro bajo condiciones dadas.
La filosofa de trabajo del Data Warehouse es diferente a la de los sistemas
transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en una tecnologa
de procesamiento analtico, distinta al procesamiento transaccional de los sistemas
operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse generalmente estn
dispersos en distintos sistemas de la organizacin, desarrollados en diferentes entornos
de desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental
del Data Warehouse recolectarlos, unificarlos y depurarlos segn las necesidades del
negocio, eliminando inconsistencias y conservando slo la informacin til para los
objetivos empresariales. Esto se lleva a cabo mediante procesos que se ejecutan
peridicamente y conducen a mantener la informacin actualizada.
Los datos dentro de un ambiente Data Warehouse pueden organizarse en un Data
Warehouse corporativo, o dividirse por rea o sector departamental, almacenndose en
Data Marts, que son similares a una versin reducida de un Data Warehouse. Otra de las
caractersticas particulares de un Data Warehouse es la importancia que presentan los
metadatos, o datos acerca de los datos, considerados en todas las etapas de su desarrollo.
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la
posibilidad de ver la informacin a diferentes niveles de agregacin (detallados o
resumidos) y filtrar las consultas por distintas variables.
Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para
encontrar relaciones entre los datos a fin de comprender las causas de variabilidad
presentes y realizar pronsticos con el apoyo de modelos estadsticos.

2
1. ASPECTOS TERICOS

1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING


Se puede caracterizar un data warehouse haciendo un contraste de cmo los datos de un
negocio almacenados en un data warehouse, difieren de los datos operacionales usados
por las aplicaciones de produccin.

1.2 Problemas que dan origen a un Data WareHouse.


Los Data Warehouse surgen por los siguientes problemas:
Falta de integracin de la informacin. Muchos de los datos de que disponen las
empresas se encuentra en diversos almacenes de datos porque han evolucionado como
sistemas independientes, en diferentes lenguajes, desarrollados por diferentes personas y
en diferentes momentos. Estos almacenes de datos son incapaces de ofrecer a la empresa
una visin consolidada ya que no poseen vinculacin entre ellos.
Sobrecarga de informacin. En las ltimas dcadas, los sistemas operacionales han
producido una gran cantidad de datos, los que son difciles de analizar para tomar
decisiones de negocio. A pesar de las grandes sumas invertidas en tecnologa de la
informacin, los distintos departamentos dentro de las empresas todava carecen de
herramientas para explorar esos datos de una manera gil y eficaz.
Exceso de informacin genrica y despersonalizada. Por lo general, los informes
producidos por un sistema operacional contienen una gran cantidad de datos. Sin
embargo, ofrecen muy poca informacin que ayude a la toma de decisiones. Estos
informes no tienen la capacidad de adaptarse a las necesidades actuales de los usuarios, y
carecen de informacin personalizada y/o relevante para los distintos perfiles que existen
en un negocio.
Falta de retroalimentacin oportuna para la mejora de los negocios. En las
organizaciones, los ejecutivos trabajan hacindose preguntas e imaginando posibles
situaciones futuras. Los resultados obtenidos de esa labor generarn a su vez ms
preguntas y el planteo de nuevas situaciones repitiendo el ciclo hasta conseguir los
fundamentos para tomar una decisin. Con el uso de los sistemas operacionales, este
proceso se hace dificultoso, sino imposible, al no tener posibilidad de generar informes
adaptados a las necesidades del momento.

1.3 Beneficios asociados al Data WareHouse


Las ventajas competitivas en una empresa, al permitir el desempeo de tareas que
utilizando los sistemas tradicionales sufriran un costo adicional, por ejemplo:
Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante mejora en
la calidad de gestin, lo que tambin repercute en la relacin con el cliente. De hecho, el
que un Data Warehouse implique una mayor flexibilidad ante el entorno tiene una
consecuencia directa en una mayor capacidad para responder a las necesidades de los
clientes.

3
Rediseo de procesos. Ofrecer a los usuarios una capacidad de anlisis de la
informacin de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una
visin ms profunda y clara de los procesos de negocio propiamente dichos, lo que a su
vez permite obtener ideas renovadoras para el rediseo de los mismos.

1.4 Diferentes tipos de informacin


El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi
todos los casos. El data warehouse es siempre un almacn de datos transformados y
separados fsicamente de la aplicacin donde se encontraron los datos en el ambiente
operacional.
El proceso automatizado de un negocio utiliza datos operacionales, los que constituyen el
conjunto de registros de las transacciones del negocio. Estos datos son creados durante la
ejecucin de estos procesos y son almacenados en un archivo o en una base de datos.
Lo que el usuario del negocio necesita como entrada a sus actividades de anlisis son
datos informativos. Estos son una combinacin de datos operacionales que han sido
modificados, depurados, transformados, consolidados y organizados desde diversas
fuentes externas al proceso del negocio. Este tipo de informacin generalmente es
especfico para un conjunto de usuarios del negocio que lo hacen significante y til para
su anlisis.
Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es difcil cumplir
con ambos propsitos en el mismo sistema.
En el siguiente cuadro se muestran las diferencias entre los datos operacionales y los
datos informativos.

Datos Operacionales Datos Informativos


Orientados a una aplicacin Orientados a un tema
Integracin limitada Integrados
Constantemente actualizados No voltiles
Slo valores actuales Valores a lo largo del tiempo
Soportan operaciones diarias Soportan decisiones de administracin

1.5 Sistemas de Soporte de Decisiones


En el proceso de tomar decisiones hay dos partes en general: tener los datos y obtener
respuestas de los datos.
Un Sistema de Soporte de Decisiones (SSD) puede ser definido de una manera general
como un sistema de computacin diseado para apoyar al proceso de toma de decisiones
(de planeamiento, de administracin y operacionales) en un negocio.
Este tipo de Sistema contiene todos los servicios o procesos para elegir, manipular y
analizar datos informativos y presentar los resultados. Debera brindar acceso
transparente a los datos en varias partes del Data Warehouse y proveer de interfaces
comunes a un grupo de usuarios de la organizacin. Fundamentalmente, un Sistema de
Soporte de Decisiones constituye la ventana del usuario a los datos informativos
almacenados en el Data Warehouse.

4
1.6 Arquitectura Data Warehouse
Poder transformar los datos en conocimiento es un proceso complejo. Un Data Warehouse
es mucho ms que simplemente copiar datos de un lugar a otro, de los sistemas
operacionales a una base de datos informativa independiente. Un Data Warehouse es, en
primer lugar, una arquitectura que debe servir como infraestructura para proporcionar
una solucin completa a los problemas que le dieron origen. La arquitectura de un Data
Warehouse se representa en la Figura

1.6.3 Fuentes de datos


Este componente es el que normalmente est presente originariamente en las
organizaciones, y a partir del cual se realiza la captura de datos que se contemplar en el
Data Warehouse. Estas fuentes de datos pueden ser sistemas operacionales corporativos
(representan el entorno del que se obtienen la mayor parte de los datos significativos de
la operativa diaria de la compaa), sistemas operacionales departamentales y fuentes
externas como copias de respaldo, planillas de clculo, archivos planos, reportes de la
empresa, resultados de investigaciones de mercado, etc.

1.6.4 Extraccin, transformacin y carga (ETL)


Para poblar el Data Warehouse se deben mover bloques de datos, muchas veces desde
diferentes sistemas operativos, estructuras de archivos y bases de datos, mediante
procesos programados que se ejecutan frecuentemente fuera del horario de trabajo para
no insumir tiempo de procesamiento del hardware de la empresa, entorpeciendo la
operatoria de la misma.

5
Los subsistemas para poblar el Data Warehouse se pueden construir utilizando
herramientas y productos disponibles en el mercado, programas y procesos codificados
desde cero, o combinaciones de estos elementos.
Al construir los sistemas para poblar el Data Warehouse, se debe considerar la posibilidad
de que estos permitan regular el crecimiento evolutivo del Data Warehouse, brindando
escalabilidad y soporte para grandes cantidades de datos y consultas complejas. Se
pueden encontrar dificultades adicionales dependiendo de las fuentes de datos que se
tengan disponibles, que implican el uso de diferentes herramientas y tecnologas para
acceder a cada uno de ellos.

1.6.4.1Extraccin (Extraction)
El propsito principal de la fase de extraccin es capturar y copiar los datos requeridos de
uno o ms sistemas operacionales o fuentes de datos. Los datos que se extraen son
colocados en un archivo intermedio con un formato definido, que luego ser utilizado por
la siguiente fase del proceso.
Los registros que sean rechazados en el proceso deben ser registrados en un archivo o log
de rechazos para que puedan ser analizados posteriormente y as tener la posibilidad de
cargarlos en el Data Warehouse correctamente. Adems, esto permite descubrir los
errores que han ocurrido en los procesos de creacin de los datos operacionales. Ejemplos
de estos errores son violaciones de integridad, claves duplicadas, formatos de datos
incorrectos y datos invlidos como campos vacos, fechas futuras e importes negativos
cuando estos no correspondan. En nuestro Caso: nmeros telefnicos invlidos,
estndares no respetados, llamadas duplicadas y campos nulos.
Hay que tener en cuenta que despus de la fase inicial de carga del Data Warehouse slo
es necesario cargar los datos nuevos y que han sido modificados.

1.6.4.2 Transformacin (Transformation)


Las funciones bsicas a ser realizadas en esta fase consisten en leer los archivos
intermedios generados por la fase de extraccin, realizar las transformaciones necesarias,
construir los registros en el formato del Data Warehouse y crear un archivo de salida
conteniendo todos los registros nuevos a ser cargados en el Data Warehouse. La mayor
parte del trabajo en esta fase involucra el efectuar las transformaciones necesarias. Estas
transformaciones incluyen:
Combinar campos mltiples de nombres y apellidos en un solo campo.
Fusionar campos o datos homnimos.
Separar un campo de fecha en campos de ao, mes y da.
Cambiar la representacin de los datos, como TRUE (verdadero) a 1, y FALSE (falso) a 0,
o cdigos postales numricos a alfanumricos, respetando los estndares de la empresa.
Cambiar un dato que tiene mltiples representaciones a una sola representacin, como
por ejemplo definir un formato comn para nmeros telefnicos, o establecer un trmino
comn para los nombres de los campos o los valores de los datos que sean sinnimos.

6
1.6.5 Ambiente Data Warehouse
Es el bloque donde se almacenan los datos informativos, utilizado principalmente para
usos estratgicos. No obstante, existen herramientas que no hacen uso de este bloque,
realizando las consultas multidimensionales directamente sobre la base operacional. En
este caso se puede pensar en el Data Warehouse simplemente como una vista lgica o
virtual de datos.

1.6.6 Data Mart


Un Data Mart es una implementacin de un Data Warehouse con un determinado alcance
de informacin y un soporte limitado para procesos analticos, que sirve a un slo
departamento de una organizacin o para el anlisis de problemas de un tema particular.
El Data Warehouse es el resultado de la unin de los Data Marts de la empresa.

1.6.7 Herramientas de acceso y uso


Sin las herramientas adecuadas de acceso y anlisis el Data Warehouse se puede convertir
en una mezcla de datos sin ninguna utilidad. Es necesario poseer tcnicas que capturen
los datos importantes de manera rpida y puedan ser analizados desde diferentes puntos
de vista.
Tambin deben transformar los datos capturados en informacin til para el negocio.
Actualmente a este tipo de herramientas se las conocen como Herramientas de
Inteligencia de Negocio (Business Intelligence Tools, BIT) y estn situadas
conceptualmente sobre el Data Warehouse. Cada usuario final debe seleccionar la
herramienta que mejor se ajusta a sus necesidades y a su Data Warehouse. Entre ellas
podemos citar las Consultas SQL (Structured Query Language), las Herramientas MDA
(Multidimensional Analysis), OLAP (On-Line Analytical Processing) y las herramientas Data
Mining.
Este bloque tambin incluye el hardware y software involucrados en mostrar la
informacin en pantalla y emitir reportes de impresin, hojas de clculo, grficos y
diagramas para el anlisis y presentacin.

1.6.8 Metadatos
Los metadatos son datos acerca de los datos. En una base de datos los metadatos son la
representacin de los diversos objetos que definen una base de datos, por ejemplo,
ubicacin y descripcin de base de datos, tablas, nombres y resmenes. Tambin
podemos mencionar las descripciones lgicas y fsicas de tablas, columnas y atributos.

Uno de los problemas con el que pueden encontrarse los usuarios de un Data Warehouse
es saber lo que hay en l y cmo pueden acceder a lo que quieren. A fin de proveer el
acceso a los datos universales, es absolutamente necesario mantener los metadatos.

7
1.7 Business Intelligence

Business Intelligence es la habilidad para transformar los datos en informacin, y la


informacin en conocimiento, de forma que se pueda optimizar el proceso de toma de
decisiones en los negocios.

Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas


de la informacin, podemos definir Business Intelligence como el conjunto de
metodologas, aplicaciones y tecnologas que permiten reunir, depurar y transformar datos
de los sistemas transaccionales e informacin desestructurada (interna y externa a la
compaa) en informacin estructurada, para su explotacin directa (reporting, cubos
OLAP, alertas...) o para su anlisis y conversin en conocimiento, dando as soporte a la
toma de decisiones sobre el negocio.

1.7.1 Datos, informacin, conocimiento

En qu se diferencia el conocimiento de los datos y de la informacin? En una


conversacin informal, los tres trminos suelen utilizarse indistintamente y esto puede
llevar a una interpretacin libre del concepto de conocimiento. Quizs la forma ms
sencilla de diferenciar los trminos sea pensar que los datos estn localizados en el mundo
y el conocimiento est localizado en agentes de cualquier tipo (personas, empresas,
mquinas...), mientras que la informacin adopta un papel mediador entre ambos.

1.7.2 Datos

Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de
informacin que por s solos son irrelevantes como apoyo a la toma de decisiones.
Tambin se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el
por qu de las cosas y no son orientativos para la accin.

8
Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un
propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisin. Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico
como un papel, un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una
persona. En este sentido las tecnologas de la informacin han aportado mucho a
recopilacin de datos.

Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la
organizacin, pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o
cuantitativo, etc.

1.7.3 Informacin

La informacin se puede definir como un conjunto de datos procesados y que tienen un


significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin
debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en
informacin aadindoles valor:

Contextualizando: se sabe en qu contexto y para qu propsito se generaron.

Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.

Calculando: los datos pueden haber sido procesados matemtica o


estadsticamente.

Corrigiendo: se han eliminado errores e inconsistencias de los datos.

Condensando: los datos se han podido resumir de forma ms concisa


(agregacin).

Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es capaz


de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor
y sus comportamientos.

Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)

1.7.4 Conocimiento

El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve


como marco para la incorporacin de nuevas experiencias e informacin, y es til para la
accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con
frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que
tambin esta en rutinas organizativas, procesos, prcticas, y normas.

El conocimiento se deriva de la informacin, as como la informacin se deriva de los


datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones
como:

9
Comparacin con otros elementos.

Prediccin de consecuencias.

Bsqueda de conexiones.

Conversacin con otros portadores de conocimiento.

10
Cuestionario

1. Qu son los Data Warehouse?


2. Cul fueron la problemticas en las Tecnologas de la Informacin que le dan
origen?
3. Cules son las partes constructivas del Data WareHouse?. Definir cada una.
4. Dnde puede ubicar a un Data WareHouse en la Inteligencia de Negocios?

19

You might also like