You are on page 1of 12

MAESTRIA EN MBA V PROMOCION CON

MENCION EN DIRECCION ESTRATEGICA

ESTADISTICA PARA LA TOMA DE


DECISIONES

ESTADISTICA CUALITATIVA O DE ATRIBUTOS

SANDRA RIVERA
RAFAEL GORDILLO
MARCELO PAREDES
DAVID REVELO
FERNANDO RIVERA

OCTUBRE 2010
ESTADISTICA CUALITATIVA O DE ATRIBUTOS

INTRODUCCION

El concepto de Estadística es muy amplio, y sus aplicaciones directas o


indirectas, muy numerosas; la idea más adecuada es considerar que incumbe a
la Estadística la recogida, ordenación, resumen y análisis de datos de cualquier
tipo sobre colectivos, lo que significa que no tiene sentido pensar en un dato
aislado o individual como terreno de trabajo de la Estadística: es necesario,
pues, considerar un grupo de elementos (personas, animales, cosas,
experimentos, etc.) a los que se refieren los datos que se consideran. Este
conjunto puede venir dado de dos formas que condicionan toda clasificación
interna de la Estadística, y que son las siguientes:

a) Población, o conjunto de todos los elementos cuyo estudio nos


interesa. Si se dispone de datos de una o más variables sobre la población
completa, o se puede acceder a ellos, la Estadística tendrá como misión que la
recogida sea adecuada, se ordenen, se estructuren y se resuman dichos datos
para su mejor comprensión, es decir, que se describan. Ello nos llevará a
hablar de Estadística Descriptiva. Por ejemplo, el conjunto de los varones
mayores de 65 años y residentes en una provincia sería una población.

b) Muestra, o conjunto de elementos de los que efectivamente se


dispone de datos, y que es una parte (a menudo pequeña) de la población.
Cuando no se puede acceder a los datos de toda la población, que es lo más
frecuente, y se debe trabajar con sólo los de la muestra, a la simple descripción
de los datos se añade el interés por valorar hasta qué punto los resultados de
la muestra son extrapolables o generalizables a la población; en consecuencia,
será necesario utilizar no sólo las técnicas de la Estadística Descriptiva,
siempre obligadas en todo caso para la comprensión de los resultados, sino
también otras que permiten inferir afirmaciones sobre la población a partir de
los datos de la muestra y que constituyen la Estadística Inferencial o Inferencia

2
Estadística. Por ejemplo, el grupo de los varones mayores de 65 años y
residentes en una provincia que son usuarios de bibliotecas públicas sería una
muestra de la población citada en el párrafo anterior (otra cosa es que la
muestra fuese o no representativa del conjunto de tal población).

Los elementos fundamentales de la descripción de una variable son los que


siguen en los apartados siguientes, que se pueden resumir de esta forma:

- En primer lugar, se hará hincapié en que lo que se estudia son en


realidad las variables, lo que nos obligará a distinguir los tipos básicos
de ellas, porque tienen un tratamiento distinto en todo lo que sigue.

- Las distribuciones de frecuencia son necesarias en el paso siguiente


para expresar los resultados obtenidos mediante tablas estadísticas.

- Las gráficas estadísticas dan una información similar a la de las tablas,


pero de forma más directa; de ellas trata otro apartado.

- Finalmente, el resumen de la información se realiza mediante las


medidas de centralización, dispersión y posición.

3
TIPOS DE VARIABLES.

Lo que se estudia en una muestra o población es una serie de variables


en cada individuo o elemento. Lo usual es considerar primero las variables una
a una, sin plantearse problemas de asociación entre ellas, por lo que podemos
pensar sólo en una variable de cuyos datos imaginamos disponer en una
muestra (el número de datos es el llamado Tamaño de Muestra, para el que
habitualmente se utiliza la letra n). Los tipos de variables, y consecuentemente
las clases de datos que se pueden encontrar, son básicamente las siguientes:

VARIABLES CUALITATIVAS,

También llamadas caracteres, variables categóricas o atributos, que son


aquellas que no necesitan números para expresarse; cada forma particular en
que pueden presentarse se denomina modalidad. Por ejemplo, el sexo de una
persona es una variable cualitativa y “varón” o “mujer” son sus únicas
modalidades. En consecuencia, para una variable cualitativa, cada dato no es
más que la información de que un determinado elemento de la muestra
presenta una determinada modalidad. Entre las variables cualitativas cabe
distinguir:

4
1) las variables cualitativas ordinales, que son las que teniendo más de
dos modalidades tienen establecido un orden natural entre las mismas, de
forma que sus modalidades se enuncian siguiendo una cierta ordenación
ascendente o descendente y no de otra manera. Por ejemplo, la variable
“gravedad del pronóstico de lesiones traumáticas” podría tener como orden
natural entre sus modalidades “leve”, “moderado”, “grave”, etc., pero nunca
diríamos “grave”, “leve”, “moderado”, etc. en este orden.

2) las variables cualitativas puras o nominales, que no tienen un orden


natural preestablecido entre sus modalidades, y podemos utilizar cualquier
ordenación para ellas, como por ejemplo el grupo sanguíneo o la nacionalidad
de una persona (no hay que confundirse con ordenaciones arbitrarias, como el
orden alfabético, pensando que convierten en ordinales a las variables, ya que
no significan una verdadera ordenación natural de las modalidades).

3) las variables dicotómicas, que tienen sólo dos modalidades posibles,


y en las que ni siquiera tiene sentido plantearse si son o no ordinales; El hecho
de tener sólo dos modalidades les confiere características especiales. Cabe
citar como ejemplos el ya citado del sexo, el pertenecer o no a una asociación,
o en general cualquier situación que sólo admita una respuesta “sí o no”.

ANALISIS DE DATOS

Podemos obtener la distribución de frecuencias, no teniendo sentido el empleo


de promedios, tales como la media, solo se podrá utilizar la moda como
resumen de la información, y si responden a una escala ordinal, la mediana.

Lo que nos planteamos en este tema es estudiar la posibilidad de establecer


medidas similares a la correlación para este tipo de variables.

5
 Si los caracteres se pueden ordenar de acuerdo con cierta escala se
puede llegar a unos coeficientes de correlación que mida el grado de
asociación entre ellos.

 Si las observaciones son nominales, entonces se establecen los


llamados coeficientes de asociación y contingencia.

1. CORRELACIÓN POR RANGOS.

Sean Ai y Bi los caracteres que presentan las observaciones, y sea x i el número


de orden o rango que le correspondería a A i si ordenáramos esta característica,
yi representaría el rango de Bi.

Basándonos en la concordancia o discordancia de las “clasificaciones por


rangos” xi e yi, queremos estudiar el grado de asociación entre los caracteres A i
y Bi.

1.1. COEFICIENTE DE CORRELACIÓN POR RANGOS DE SPEARMAN.

Se obtendrá fácilmente a partir del coeficiente de correlación lineal r=

1
N
∑ ( x i −x )( y i− y )
1 2 1
√ ∑
N i
( x i −x ) ∑ ( y i − y )
N i
2

Como xi e yi son rangos, utilizando sus propiedades y operando


convenientemente obtenemos el coeficiente de correlación ordinal o de
Spearman:

6
2
6 ∑ di
i
ρ=1− 3
N −N siendo di=xi-yi

 Varia entre 1 y –1.


 Si la concordancia de los rangos es perfecta, ρ =1.

 Si no la disconcordancia es perfecta, ρ =-1.

1.2. ASOCIACIÓN ENTRE CARACTERES NOMINALES.

La observación simultánea de dos atributos da lugar a una tabla de


doble entrada donde nij indica el número de individuos que poseen
conjuntamente las modalidades indicadas en la fila i-ésima y en la columna j-
ésima. Dicha tabla recibe el nombre de tabla de contingencia.

A B B1 B2 … B j … B k TOTAL
A1 n11 n12 … n1j ... n1k n1.
A2 n21 n22 … n2j ... n2k n2.
… ... ... ... ... ... ... ...
Ai ni1 ni2 … nij ... nik nj.
… ... ... ... ... ... ... ...
Ah nh1 nh2 … nhj ... nhk nh.
TOTAL n.1 n.2 … n.j ... n.k N

Las distribuciones que se refieren a uno solo de los dos atributos se denominan
marginales. Para el atributo B se encuentra reflejada en la última fila y para el A
en la última columna.

1.2.1. TABLA DE CONTINGENCIA 2X2.

La más sencilla es la que presenta dos modalidades mutuamente excluyentes


para cada carácter.

7
A B B1 B2 TOTAL
A1 n11 n12 n1.
A2 n21 n22 n2.
TOTAL n.1 n.2 N

1.2.2. CRITERIO DE INDEPENDENCIA.

Dos atributos son independientes cuando entre ellos no existe ningún tipo de
influencia mutua. Lo que se reflejará estadísticamente en que la frecuencia
relativa conjunta es igual al producto de las frecuencias marginales respectivas.

1.2.3. CRITERIO DE ASOCIACIÓN.

Es contrario al de independencia.

Diremos que A y B están asociados si aparecen juntos un número de veces


mayor del que cabría esperar si fuesen independientes.

Según que esa tendencia a coincidir o a no coincidir esté más o menos


marcada, tendremos distintos grados de asociación. Para medirlos se han
ideado diversos procedimientos, coeficientes de asociación, entre los que
destacaremos:

Coeficiente de asociación H

n1.
n.1
A1 y B1 son independientes si n 11= N , por lo tanto para medir la

n1.
n.1
asociación podemos estudiar la diferencia n 11 - N , a la que llamaremos

8
H, haciendo las operaciones convenientes llegamos a la siguiente expresión
para H:

Nn11−n1. n. 1
H= N

 Si H es 0 los atributos son independientes.


 Si H >0 los atributos presentan asociación positiva.
 Si H <0 los atributos presentan asociación negativa.

−n12 n 21 n11 n22


El coeficiente varía entre N y N .

n22 n11 −n12 n21


Otra expresión que podemos dar es H= N .

Este coeficiente presenta el inconveniente de que su amplitud depende de los


valores que tomen N, n11, n12, n21, n22.

1.3. TABLAS DE CONTINGENCIA hxk.

En este caso tenemos h modalidades para el atributo A y k para el B.

ni. n . j
Si nij= N para todo i,j entonces A y B son independientes.

Para medir el grado de asociación entre A y B utilizaremos los siguientes


coeficientes de confiabilidad:

9
2
 Coeficiente de contingencia χ

Si denominamos nij la frecuencia conjunta correspondiente a la


modalidad Ai de A y Bj de B y nij´ la que correspondería en el caso de

ni. n . j
2
que fueran independientes, es decir n ij´= N entonces: χ =

2
h k
( n´ij−nij )
∑∑ ´
i =1 j=1 n ij se le denomina también cuadrado de la contingencia.
h k 2
nij
2 ∑∑ −N
Otra fórmula es χ = i=1 j=1 n´ij .
h k 2
χ2 1 n
ϕ = = ∑ ∑ ij´ −1
2
N N i=1 j=1 n ij
También se utiliza la expresión
denominada cuadrado medio de la contingencia.
Ninguno de los dos coeficientes puede ser negativo.
Si los atributos fueran independientes serían cero.

 Coeficiente de contingencia de K. Pearson.


El cuadrado medio de la contingencia no es apropiado para constituir por
sí mismo un coeficiente, dado que sus límites varían en cada caso. Por
este motivo, K. Pearson propuso el siguiente coeficiente

χ2 ϕ2

Varia entre 0 y 1 .
C= √ N+ χ2 = √ 1+ϕ 2 .

Si A y B son independientes C=0.

10
Total asociación C=1, lo que no se alcanza nada más que en el caso
ideal de infinitas modalidades.

C revelará un menor grado de asociación entre los atributos cuanto más


próximo esté a cero.

 Coeficiente de Tschuprow

Para evitar los inconvenientes del coeficiente C, Tschuprow propuso un

2
coeficiente que depende de χ , del número de filas y columnas, y
del total de elementos, N.
2
ϕ
T2= √( h−1 ) ( k−1 ) .
Varía entre 0 y 1.

GRAFICAS ESTADISTICAS

Así, para caracteres o variables CUALITATIVAS se pueden mencionar:

- El diagrama de barras o rectángulos, consistente en asociar a cada


modalidad de la variable un rectángulo cuya superficie refleje su
frecuencia: las modalidades se suelen situar en horizontal y la escala de
frecuencias absolutas o relativas en vertical. Si las bases de los
rectángulos se dibujan todas iguales, par cumplir la regla fundamental
antes citada basta tomar como alturas de los rectángulos directamente
las frecuencias, sin mayor complicación (el rectángulo de una modalidad
con frecuencia 7 tendrá altura 7 y así con todas). Los rectángulos suelen
representarse separados en este tipo de gráficas, que también pueden
aparecer con las barras horizontales y las modalidades situadas
verticalmente.

11
- El diagrama de sectores, que refleja como sectores de un círculo las
frecuencias de cada modalidad. Como el radio es constante en un
círculo, para cumplir la regla fundamental de proporcionalidad basta
hacer al ángulo de cada sector proporcional a la frecuencia, lo que se
consigue multiplicando los 360º del círculo por la frecuencia relativa de
cada modalidad. Este tipo de gráficas es muy útil para comparar los
resultados de una variable cualitativa en dos o más muestras.

Hay otras gráficas menos frecuentes pero igualmente válidas para variables
cualitativas; cabe citar los pictogramas, en los que se representa una
misma figura para cada modalidad pero con tamaño proporcional a las
frecuencias (pictograma por extensión) o una misma figura repetida tantas
veces como sea necesario para reflejar la frecuencia de cada modalidad
(pictograma por repetición), los cartogramas, en los que se representa
cada modalidad sobre puntos o regiones de un mapa, o los diagramas de
superficie, en los que se divide una figura geométrica, generalmente un
rectángulo, en trozos proporcionales a las frecuencias.

12

You might also like