You are on page 1of 18

Anexo A

Conceptos Básicos

Este capítulo presenta una breve introducción a los AD (almacenes de datos)


y las consideraciones que se deben tomar en cuenta durante el diseño de un
AD

A.1 Modelado multidimensional.

El modelado multidimensional se basa en la dualidad hecho-dimensión,


donde los hechos son descritos en base a las dimensiones.
Un hecho representa la actividad objeto de análisis mientras que las
dimensiones muestran los diferentes puntos de vista para su estudio. Un
esquema multidimensional tiene la apariencia de estrella; el hecho es la parte
central de la estrella y las dimensiones de análisis son las puntas.
En la Figura A.1 se muestra el esquema multidimensional para las Ventas de
una compañía, donde las Ventas representan los hechos que pueden ser
analizados en función de las dimensiones, Tiempo, Producto y Localización.

Figura A.1. Apariencia de estrella de un esquema multidimensional.

Los hechos en el modelado multidimensional contienen un conjunto de


medidas, cada medida es usualmente de tipo numérico, por ejemplo las
medidas para las Ventas pueden ser Total de ventas, Número de Clientes y
Nivel de inventario, como se muestra en la Figura A.2.

Figura A.2 Representación de un hecho con medidas.


Las dimensiones están formadas por atributos, los cuales se organizan en
jerarquías, en la Figura A:3 se puede observar que la dimensión Localización
está formada por cuatro atributos, Tienda, Ciudad, Estado y Región y que la
dimensión Tiempo está formada por tres atributos Semana, Mes y Año.

Figura A.3 Dimensiones representadas como jerarquías.

La jerarquía entre los atributos implica una organización de los datos dentro
de la dimensión, formando niveles donde cada uno de ellos representa un
nivel de detalle al que se pueden consultar las medidas de los hechos. Estos
niveles por lo general, van de mayor a menor grado de detalle.

Por ejemplo el conjunto de datos de la Figura A.4, representa el total de


ventas por mes para cada Tienda; el nivel de detalle de este informe está
determinado por el atributo Mes de la dimensión Tiempo y por el atributo
Tienda de la dimensión localización.

Figura A.5 Ventas por mes para cada ciudad.


Figura A.4 Ventas por mes para cada tienda.

En la Figura A.5 se muestra el Total de ventas por mes para cada ciudad,
debido a que el informe se obtiene por medio del atributo Ciudad de la
dimensión Localización, se observa un menor nivel de detalle de los datos
que el mostrado en la Figura A.4, debido a la jerarquía que existe entre los
atributos Tienda y Ciudad que indica que muchas tiendas pertenecen a una
ciudad como se muestra en la Figura A.6.
Figura A.6 Relación jerárquica entre tienda y ciudad.
En la Figura A.7 se puede observar que la relación que existe entre los
atributos Tienda y Ciudad es muchos a uno, que es la relación normal entre
los niveles de una jerarquía, sin embargo puede haber casos donde la
cardinalidad de la relación entre los niveles sea muchos a muchos lo que se
explicará más adelante.

Figura A.6 Relación clásica entre elementos de una jerarquía.

Así una medida consiste en valores numéricos que son continuamente


evaluados y sumados a distintos niveles sobre las jerarquías de las
dimensiones, permitiendo de esta forma variar el nivel de detalle de los datos
que se analizan.

El modelado multidimensional debe permitir que se definan las jerarquías en


cada dimensión de forma que se presente al usuario el contexto conceptual
para el análisis de los datos.

A.1.1 Medidas aditivas, semiaditivas y no aditivas.

Los datos de una consulta se obtienen al agregar una medida sobre niveles de
las jerarquías de dimensiones, por lo general la función de agregación
utilizada es la función SUM. En algunos casos sin embargo el valor que
arroja la función de agregación es semánticamente incorrecto, para explicar
este caso se presenta el ejemplo propuesto por Kimball sobre una cadena de
tiendas distribuidas en diferentes ciudades. En el diagrama de la Figura 8 se
observan tres dimensiones (Localización, Producto y Tiempo), y sus
respectivas estructuras jerárquicas.

Los hechos representan las ventas y contiene tres medidas cuyos valores se
interpretan bajo la perspectiva ofrecida por las dimensiones. Las medidas
son Cantidad que representa el número de unidades de un producto vendidas
en una tienda en una semana determinada, No. de clientes que representa el
número de clientes distintos que han comprado un Producto en una Tienda
una Semana determinada, y Nivel de inv. que representa la existencia de
artículos.

Figura A.7 Esquema multidimensional de ventas.

En el conjunto de datos de la Figura A.9, el valor de la medida Cantidad


representa la cantidad de artículos vendidos de un producto en una semana
en una tienda, de esta forma durante la semana 1 la tienda 1 vendió 15
unidades del producto 1.

El valor que se muestra en las celdas de los totales se obtuvo al realizar la


función de agregación SUM sobre las dimensiones (Tiempo, Localización y
Producto), se puede observar que el valor que se tiene en estas celdas es
semánticamente correcto, por ejemplo el total para la semana 1, producto 1
igual a 45 es semánticamente correcto, al igual que para los demás casos por
lo que la medida Cantidad es aditiva respecto a las tres dimensiones del
esquema. Una medida aditiva se define como una medida que al aplicarle la
función de agregación SUM sobre todas las jerarquías de las dimensiones
siempre mostrará valores semánticamente correctos.
Figura A.8 Informe sobre la cantidad de artículos vendidos.

Sin embargo la agregación de ciertas medidas puede ser semánticamente


incorrecta sobre algunas dimensiones, estas medidas son llamados
semiaditivas, por ejemplo el No. de clientes es una medida semiaditiva ya
que al realizar la función de agregación SUM sobre la dimensión Producto
arroja valores incorrectos, este error se puede presentar por razones
semánticas o bien por el tipo de jerarquía sobre la cual se realiza la función
de agregación. (Se explica en la sección 2.1.2).

El conjunto de datos de la Figura A.10, representan el Total de clientes en


una tienda y semana determinada, así 13 clientes compraron durante la
semana 1 en la tienda 1, la cual tuvo un total de 60 clientes durante las cuatro
semanas.

Figura A.9 Total de Clientes por Tienda.

En la Figura A.11 se muestran los artículos que adquirió cada cliente por
compra (sólo se consideran los clientes de la tienda 1 y la semana 1), se
puede observar que de los 13 clientes que la tienda 1 tuvo en la semana 1, 10
clientes adquirieron el producto 1 y 2 en la misma compra y que 3 clientes
adquirieron el producto 1 y no adquirieron el producto 2.

Figura A.10 Relación de productos adquiridos x los clientes de la


tienda 1 en la semana 1.

En la Figura A.12 se muestra la relación de clientes que hubo por Producto y


Tienda y se destaca que 10 clientes compraron durante la primera semana el
producto 1 en la tienda 1, y que esos mismos 10 clientes compraron el
producto 2 en la misma tienda, la misma semana pero además 3 clientes
compraron el producto 2 en la tienda 1 la misma semana, así el total de
clientes que la tienda 1 tuvo durante la semana 1 fue realmente 13, (el mismo
razonamiento debe hacerse para los demás casos).

Figura A.11 Conjunto de datos que representan una medida semiaditiva.


En base a este razonamiento el “valor esperado” al realizar la función de
agregación es el que se muestra en el renglón total inferior de la Figura 12,
que representa el total de clientes por cada tienda, de esta forma la tienda 1
tuvo 60 clientes para el producto 1 y 2 durante cuatro semanas, (la misma
interpretación debe hacerse para las otras tiendas). Sin embargo el valor que
se obtendría al realizar la agregación sobre Producto y Tienda es el que se
muestra en la Figura A.13, donde se pueden observar resultados
semánticamente incorrectos. Los resultados incorrectos de este informe se
deben a que la herramienta OLAP desconoce que un mismo cliente ha
adquirido más de un producto en la misma compra y al realizar la función
de agregación SUM lo suma dos veces.

Figura A.12 Reporte con datos incorrectos por aspectos semánticas.


Pero al realizar un total por Producto y Semana (totales horizontales, figura
13), el resultado mostrado sería correcto, por lo que la medida es
semiaditiva, lo mismo sucede para la medida Nivel de inventario que no es
aditiva sobre la dimensión Tiempo pero es aditiva sobre la dimensión
Producto y Localización.
Para explicar cuando una medida es no aditiva se presenta el siguiente
conjunto de datos que representa el total de estudiantes registrados de una
universidad, organizados por departamento y año como se muestra en la
Figura A.14.

Figura A.13 Relación de estudiantes registrados en la universidad.

Supongamos que queremos obtener el total de estudiantes que atendió cada


departamento en los últimos tres años. El agregar los datos (15+17+13=45)
es incorrecto suponiendo que los estudiantes son registrados por un
departamento durante varios años, de esta forma, en el año 2001 el
departamento de informática atendió a 15 estudiantes que permanecieron en
el mismo departamento hasta el año 2002 por lo que en ese año se tuvieron
sólo 2 nuevos estudiantes que continuaron hasta el 2003, de esta forma en
ese año se registraron solamente a 11 estudiantes nuevos, así el número de
estudiantes registrados es 15+2+11=28, en la Figura A.15 se puede observar
que el número de estudiantes es una medida que puede agregarse sobre la
dimensión Departamento pero no puede agregarse por la dimensión Año.

Figura A.14 Medida semiaditiva sobre la dimensión año (Datos Correctos).


Ahora analizaremos el conjunto de datos de la Figura A.16 y supongamos
que los estudiantes pueden seleccionar materias de distintos departamentos.
Así, un estudiante puede ser registrado por el departamento de Informática y
por el departamento de Física, y continuar dos años en el programa por lo
que el alumno se sumaría dos veces sobre la dimensión Departamento y la
dimensión Año, por lo que el número de estudiantes es una mediada no
aditiva.

Figura A.15 Resultados semánticamente incorrectos por la medida no aditiva.

A.1.2 Clasificación de jerarquías.

Las jerarquías son fundamentales en el modelado multidimensional. De


manera simple, las jerarquías son usadas para permitir el proceso de
agregación de las medidas por medio de las operaciones roll-up y drill-down.

En la literatura se definen dos condiciones importantes que deben tener las


jerarquías, la condición de disyunción, y la condición de completitud, estas
condiciones determinan cuando una medida es aditiva o no sobre una
jerarquía.

A.1.2.1 Condición de disyunción.


Para explicar la condición de disyunción utilizaremos el esquema que se
muestra en la Figura A.17, donde se muestra un esquema multidimensional
de un hospital, los hechos representan el total de cobros realizados a los
pacientes(pacientes cobros) y las dimensiones Tiempo y Diagnóstico bajo las
cuales se puede realizar el análisis del total de cobros, de tal forma que es
posible realizar informes que involucren el total de cobros por Año y por
Diagnóstico o bien el total de cobros por Año y por Familia de diagnóstico.

Figura A.16 Esquema dimensional para los cobros de un paciente.


El conjunto de datos de la Figura A.18 muestra el total de cobros realizados
por Diagnóstico y Año, en él se observa que para el diagnóstico A se obtuvo
un total de 3500 pesos durante tres años y que en el año 2001 se obtuvo un
total de 6000 pesos para los tres diagnósticos.

Figura A.17 Cobros de Diagnóstico por Año.


Ahora consideraremos el análisis del total de cobros por Familia de
Diagnóstico y Año, considerando que un diagnóstico pertenece a más de una
Familia de Diagnóstico como se muestra la siguiente Figura A.19.
Figura A.18 Relación Diagnóstico por Familia.

El Informe de Total de cobros por Familia de Diagnóstico por Año, se


muestra en la Figura A.20, que es semánticamente incorrecto.

Figura A.19 Informe de cobros por Familia - Año.


Esto se debe a que los diagnósticos están distribuidos en subconjuntos no
disjuntos (esta condición es a nivel instancia), en la Figura A.21 se observa
que un diagnóstico pertenece a más de una Familia de diagnóstico,
estableciendo una relación muchos a muchos entre los atributos de la
jerarquía, por esto al realizar un roll-up de Diagnóstico a Familia de
diagnóstico, se obtiene un resultado semánticamente incorrecto.

Figura A.20 Relación jerárquica no disjunta.


Debido a estos resultados incorrectos, el modelado multidimensional debe
permitir expresar cuándo la relación de disyunción entren los atributos de
una jerarquía no se cumple, indicando con esto al usuario la posibilidad de
obtener resultados incorrectos. En resumen la condición de disyunción exige
que la relación entre dos atributos relacionados jerárquicamente sea muchos
a 1.
A.1.2.2 Condición de completitud.

Para explicar el concepto de completitud utilizaremos el esquema


multidimensional del ejemplo de la Figura A.22, donde la medida Número
de accidentes puede consultarse a través de las dimensiones Tiempo y
Localización.

Figura A.21 Esquema multidimensional sobre accidentes.


El informe de datos de la Figura A.23, representa el número de accidentes
por Año que ocurrieron en distintas ciudades.

Así durante el año 2001 en la Ciudad Culiacán ocurrieron 1500 accidentes,


el valor que se muestra en los totales se obtuvo al realizar la función de
agregación SUM sobre Ciudad (total horizontal) y Año (total vertical).

Figura A.22 Número de accidentes por Año, Ciudad y Estado.


Supongamos que queremos obtener el total de accidentes por Estado
(realizar un cambio de nivel en la dimensión Localización) y Año, pero
conocemos que los estados incluyen otras áreas geográficas además de las
ciudades tales como zonas rurales, villas, etc., (Figura A.22), y que de estas
áreas no se ha registrado información en el AD (la información no aparece
en el AD es conocimiento que se tiene del mundo real).
Figura A.23 Jerarquía entre ciudad y estado.

Debido a que en el informe de la Figura A.23 sólo se han considerado las


ciudades el resultado que se muestra en el Total por Estado y Año es
incorrecto.
La razón por la cual es incorrecto se debe a que la relación entre los atributos
Estado y Ciudad de la dimensión Localización no es completa, es decir los
totales por Estado son relativos sólo a accidentes que se han producido en
ciudades que no son todos los accidentes que han tenido lugar en el estado.

Esta situación se puede presentar porque las empresas ocultan información


por cuestiones de privacidad o porque en la base de datos operacional no se
ha almacenado el total de la información.

La condición de completitud hace referencia a dos propiedades importantes


de las jerarquías, la primera se refiere a que todos los elementos de un nivel
no terminal existentes en el mundo real existan en el AD. Por ejemplo en el
caso de las ciudades y otras áreas que pertenecen a un estado, es necesario
que todas las ciudades y todas las áreas que pertenecen a un estado estén
almacenadas, es decir que no falte ningún elemento. La segunda propiedad
hace referencia a que cada elemento de un nivel no terminal de la jerarquía
debe ser asignado a un elemento del nivel superior, en el caso de las ciudades
y otras áreas, todas las ciudades y todas las áreas deben ser asignadas a un
estado. Estas dos condiciones se muestran en la Figura A. 25.

Se observa que la primera propiedad no puede controlarse en el AD ya que


depende del conocimiento que se tiene sobre la carga del AD, mientras que
la segunda propiedad se puede expresar con una restricción de integridad.

Figura A.24 Jerarquías no completas.


Debido a los resultados incorrectos que se presentan con las jerarquías no
completas, el modelado multidimensional debe permitir expresar cuándo la
relación de completitud entre los atributos de una jerarquía no se cumple
indicando con esto al usuario la posibilidad de resultados incorrectos al
realizar un cambio de nivel.

A.1.2.3 Condición de cobertura.

En el ejemplo de la Figura A.26. Se muestra la jerarquía de la dimensión


Tiempo, en la que se observan dos rutas para realizar un cambio de nivel, de
tal forma que es posible realizar un cambio de nivel por Día  Mes Año
o bien por Día SemestreAño.

Figura A.25 Dimensión Tiempo.

En el esquema de la Figura A.27, se muestra la relación jerárquica entre los


atributos de la dimensión Proveedor. En el esquema se destaca que existen
dos rutas para realizar un cambio de nivel de Proveedor a País.
La primera considera los estados de cada país (Proveedor  Estado  País),
y la segunda no los considera (Proveedor País).

Figura A.26 Dimensión Proveedor no cubierta.

En el esquema de la Figura A.26 se destaca que independientemente de la


ruta que se elija para realizar un cambio de nivel (entre un nivel inferior y un
nivel superior), existe al menos un nivel intermedio entre ellos, por ejemplo
al cambiar de Día a Año se encuentra el nivel intermedio Semestre
(DíaSemestreAño) o Mes (DíaMesAño), por lo que el nivel
terminal se encuentra cubierto por un nivel intermedio, a diferencia del
esquema de la Figura A.27, donde al hacer un cambio de Proveedor a País es
posible elegir la ruta ProveedorPaís, la cual no tiene un nivel intermedio
entre ellos por lo que el nivel País no se encuentra cubierto por un nivel
intermedio por lo que la dimensión no es cubierta.
Para mostrar los errores que se presentan al realizar un cambio de nivel
cuando la dimensión no es cubierta considérese los datos de la Figura A.28.
Es importante observar que en la tabla aparecen valores nulos en el atributo
Estado, lo que significa que no se ha almacenado el estado al que pertenece
el proveedor pero si se ha almacenado el País, en este ejemplo sólo se han
considerado los estados de los proveedores de México.

Figura A.27 Valores en la dimensión Proveedor.

El informe de la Figura A.28 muestre el Total de compras realizadas a cada


Proveedor por Año. En él se puede observar que se han considerado todos
los Proveedores.

Figura A.28 Total de compras realizadas a cada Proveedor por Año.

En el informe de la Figura A.30(a), se observa que al realizar un cambio de


nivel (roll-up) de Proveedor a Estado, los proveedores de España no
aparecen. Mientras que al realizar un cambio de nivel de Proveedor a País
(roll-up) todos los proveedores son considerados figura A.30(b).
Es decir en el informe de la figura A.30(a) se ha perdido información
relativa a algunos proveedores al no estar asignados a estados.
a) Cambio de nivel a Estado. b) Cambio de nivel a País.
Figura A.29 Informe con diferentes niveles de detalle.

Así cuando la dimensión no presenta la condición de cobertura se obtiene


resultados semánticamente incorrectos al realizar un cambio de nivel (roll-
up).

A.1.3 Relaciones muchos a muchos entre hechos y


dimensiones.

En ocasiones la relación entre los hechos y las dimensiones no es la típica


relación muchos a uno, en varias publicaciones se analizan situaciones donde
la relación es muchos a muchos.
Para explicar los problemas que se presentan con las relaciones muchos a
muchos utilizaremos el esquema multidimensional de la Figura 31, que
representa los cobros realizados a los pacientes de un hospital, en el esquema
se muestra la relación muchos a muchos que existe entre la tabla de hechos y
la dimensión Diagnóstico.

Figura A.30 Relación Muchos a Muchos entre hechos y dimensiones.

En la Figura A.32 se muestra que el Total a Pagar se puede originar por


varios diagnósticos, estableciéndose una relación muchos a muchos, por
ejemplo los 1000 pesos que debe pagar P1 se deben a los diagnósticos
Corazón y Cáncer.
Figura A.31 Total a pagar por dos diagnósticos.

Supongamos que los diagnósticos que ha tenido cada paciente por Año, son
los que se muestran en la Figura A.32.

Figura A.32 Relación de diagnósticos de pacientes por año.

Y el total a pagar de cada paciente es el que se muestra en la Figura A.34.

Figura A.33 Relación de pagos realizados por paciente cada año.

Si se requiere un informe que muestre el total de ingresos que hubo por


Diagnóstico cada Año este mostraría resultados semánticamente incorrectos.
En la Figura A.35 se observa que el total por diagnóstico es incorrecto (Total
horizontal), debido a que las cantidades que se acumulan son el resultado de
los diagnósticos que un paciente tuvo durante un año, por ejemplo los 1000
pesos de D1 en el año 2000, no son en realidad el precio del diagnóstico D1,
sino el Total a pagar por los diagnósticos D1 y D2.
Figura A.34 Informe de ingresos por Diagnóstico incorrecto.

En la Figura A.36 se destaca que el total por año es incorrecto debido a que
el Total a pagar por diagnóstico se acumula varias veces, en este ejemplo el
precio de los diagnósticos D1 y D2 se acumula dos veces durante el año
2000.

Figura A.35 Total por año incorrecto.

Estos resultados semánticamente incorrectos se originan por la relación


muchos a muchos que existe entre los hechos y la dimensión Diagnóstico.

You might also like