Prueba de Bondad de Ajuste Chi Cuadrado

La Prueba de Bondad de Ajuste Chi Cuadrado es el test de bondad de ajuste más utilizado. En general un test de bondad de ajuste se utiliza para discriminar si una colección de datos o muestra se ajusta a una distribución teórica de una determinada población. En otras palabras, nos dice si la muestra disponible representa (ajusta) razonablemente los datos que uno esperaría encontrar en la población.

El test de bondad de ajuste chi cuadrado puede ser utilizado para trabajar tanto con distribuciones discretas como, por ejemplo, la Distribución de Poisson o la Distribución Binomial como así también con distribuciones continuas (por ejemplo, Distribución Normal, Distribución Exponencial, etc). Esto a diferencia de las pruebas de bondad de ajuste Kolmogorov SmirnovAnderson Darling que sólo pueden ser utilizados para trabajar con distribuciones continuas.

La aplicación de la prueba de bondad de ajuste chi cuadrado requiere:

  • Que los datos estén agrupados en categorías o clases. Si los datos originalmente no se encuentran agrupados será necesario agruparlos antes de aplicar el test de chi cuadrado para lo cual será necesario construir una tabla de frecuencia o histograma.

Al respecto, existen varios programas computacionales que permiten construir de forma sencilla un histograma. Uno de ellos es Easyfit que puede ser descargado en su versión de prueba y que permite automatizar el proceso de ajuste de distribuciones tal cual se observa en la siguiente imagen:

Otra alternativa consiste en hacer un histograma con el software Geogebra.

  • Una desventaja potencial del test de chi cuadrado es que requiere una muestra suficientemente grande de modo que la aproximación de chi cuadrado sea válida.

Cabe destacar que existe otro test chi cuadrado llamado test chi cuadrado para independencia. Frecuentemente los 2 test chi cuadrado son confundidos pero en realidad son diferentes:

  1. El test de bondad de ajuste chi cuadrado ajusta una variable categórica a una distribución.
  2. El test chi cuadrado para independencia compara dos conjunto de datos para ver si existe relación entre ellas.

Básicamente, el test de bondad de ajuste chi cuadrado se basa en qué tan buen ajuste se alcanza entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética (teórica).

Estadístico de Chi Cuadrado

La fórmula de cálculo del estadístico chi cuadrado utilizado en el test de bondad de ajuste chi cuadrado corresponde a:

estadístico de chi cuadrado

El subíndice c corresponde a los grados de libertad, O_{i} corresponde al valor observado para la clase i-ésima y E_{i} el valor esperado de la clase i-ésima. Si bien podemos proceder al cálculo del estadístico de forma manual, esto resulta ser tedioso en la mayoría de los casos, de modo que a continuación mostraremos algunas alternativas de cálculo apoyadas en la tecnología.

Hipótesis Nula y Alternativa (Test de Chi Cuadrado)

En el caso del test de bondad de ajuste chi cuadrado las hipótesis nula H_{0} e hipótesis alternativa H_{1} son:

  • H_{0}: Los datos se ajustan a una distribución dada.
  • H_{1}: Los datos no se ajustan a una distribución dada.

Donde la “distribución dada” corresponde a una distribución teórica específica (y con una estimación de parámetros específicos) a la cual queremos ajustar nuestros datos categorizados. Por ejemplo, consideremos que disponemos de la distribución de frecuencia de duraciones de baterías dadas en la siguiente tabla:

tabla de frecuencias ejemplo

Para el ejemplo anterior nuestra hipótesis nula podría ser:

  • H_{0}: Los datos se ajustan a una distribución normal con media \mu =3,5 y desviación estándar \sigma=0,7.

Donde dicha hipótesis será evaluada para un nivel de significancia (denotado por \alpha: alfa) definido por el evaluador (comúnmente se consideran valores de alfa de 1%, 5% o 10%). Adicionalmente el test de chi cuadrado permite obtener un valor p (o p-value) el cual dependerá de los grados de libertad considerados y el nivel de significancia establecido. Si el valor p es menor al nivel de significancia se puede rechazar la hipótesis nula.

Ejemplo Prueba de Bondad de Ajuste Chi Cuadrado

Un total de 256 artistas visuales fueron encuestados de modo de identificar su signo del zodiaco. Los resultados obtenidos fueron: Aries (29), Tauro (24), Géminis (22), Cáncer (19), Leo (21), Virgo (18), Libra (19), Escorpión (20), Sagitario (23), Capricornio (18), Acuario (20), Piscis (23). Se desea probar la hipótesis que los signos del zodiaco están distribuidos uniformemente entre los artistas visuales.

Paso 1: Preparar una tabla que tenga las siguientes columnas. Se recomienda hacer uso de Excel para facilitar los cálculos que se explicarán en los próximos pasos.

tabla excel chi cuadrado

Paso 2: Completar la información de la columna Categoría con cada uno de los 12 signos del zodiaco proporcionados anteriormente, incluyendo en la columna Observado Oi los valores proporcionados en el enunciado.

excel chi cuadrado categorias

Paso 3: Calcular el valor esperado para cada categoría. Si los signos del zodiaco estuviesen uniformemente distribuidos entre los 256 artistas visuales, cada categoría debería tener: 256/12=21,333.

esperado ei excel chi cuadrado

Paso 4: Calculamos la diferencia entre el valor observado y el valor esperado para cada categoría.

oi menos ei chi cuadrado

Paso 5: El resultado obtenido en el Paso 4 lo elevamos al cuadrado para cada categoría.

numerador chi cuadrado

Paso 6: Finalmente para cada uno de los resultados obtenidos en el Paso 5 lo dividimos por el valor esperado Ei de la categoría correspondiente (valores en la columna F en la siguiente imagen). Luego realizamos la suma de dichos valores obteniendo la estadística de chi cuadrado para este ejemplo: 5,09375.

chi cuadrado excel

Consideremos que deseamos evaluar la hipótesis nula (es decir, que los signos del zodiaco están distribuidos uniformemente entre los artistas visuales) para un nivel de significancia de un 5%: \alpha=0,05 (arbitrario) que es equivalente a un nivel de confianza de un 95%. En este caso los grados de libertad son 11 (el total de categorías menos 1).

A continuación se presenta una extracto de una tabla de distribución chi cuadrado. Notar que se ha destacado la intersección de la fila 11 (que representa los grados de libertad) y la columna 0,95 que corresponde al nivel de confianza. Claramente 19,675 es mayor a la estadística chi cuadrado anteriormente obtenida (5,09375) y en consecuencia no hay evidencia estadística que permita rechazar la hipótesis nula.

Cálculo del Valor P (Test de Bondad de Ajuste Chi Cuadrado)

Alternativamente podemos utilizar Excel para calcular el valor p asociado a la prueba de bondad de ajuste chi cuadrado. La formula a utilizar es PRUEBA.CHICUAD, donde el primer set de argumentos (en la imagen a continuación B2:B13) corresponde las frecuencias observadas y el segundo set de argumentos (en la imagen C2:C13) representa las frecuencias esperadas.

valor p excel

En el ejemplo el valor p corresponde a 0,92654 (aproximado). Luego, si consideramos un nivel de significancia menor a dicho porcentaje no se rechazaría la hipótesis nula.

Si utilizamos Geogebra, en el menú Vista seleccionamos Cálculos de probabilidad:

cálculos de probabilidad geogebra

En la pestaña Estadísticas seleccionamos Test de bondad de ajuste:

test de bondad de ajuste geogebra

Luego de seleccionar 12 Filas (según los datos de nuestro ejemplo) ingresamos el recuento de ocurrencias (frecuencia observada) y la frecuencia esperada. También se puede etiquetar (asignar nombre) a cada una de las categorías como se observa a continuación:

ajuste chi cuadrado geogebra

Finalmente se obtiene los resultados del test de bondad de ajuste. Los resultados son equivalentes a los obtenidos con la ayuda de Excel como se mostró previamente y las conclusiones que se derivan son idénticas.

valor p geogebra

Rating: 5.0. From 2 votes.
Please wait...

, , , , , , , , , ,

Sin Comentarios aún. Sé el primero en comentar!

Agregar un comentario