lunes, 22 de noviembre de 2010

La varianza

Para usar el método de comparación de medias, uno de los requisitos es que la varianza de nuestras muestras sea igual.

Pero para empezar, ¿Qué diablos es la varianza?

Según wikipedia:

En teoría de probabilidad, la varianza o coeficiente de variación (que suele representarse como σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Pfff! Como que no me quedó muy claro!! :-(

Leyendo aquí dice que hay dos símbolos para varianzas, S2 para datos muestrales, y σ2 para datos poblacionales. Sólo eso saqué en claro porqué después otra vez lo complica.

Bueno, supongamos que queremos saber la varianza de la altura promedio de todo el mundo. Varianza poblacional se obtendría midiendo a todo el mundo y calculandola. Pero obviamente eso no es práctico así que recurrimos a tomar una muestra, quizá medir a un pueblo o ciudad y calcular la varianza. Entonces, esa sería la varianza muestreal.

image                      image

Las formulas para cada uno difieren un poco pero en términos prácticos siempre estaremos usando la varianza muestreal, es decir, la s. n es el tamaño de la muestra.

¡Ah!  Ahora ya entendí eso, pero, que es la varianza. Aún no lo explican.

Bueno, De la formula de arriba vemos que sacamos la diferencia entre cada valor muestreado y la media de todos los valores muestreado, esa diferencia la elevamos al cuadrado y sumamos esos valores para todas las muestras para al final, dividir entre el numero de muestras.

En términos simples, ese numero que obtenemos nos dirá que tan dispersos están nuestros datos de la media.

Si toda la población mide mas o menos lo mismo, el valor de xi-mean(x) será casi cero y s debe ser también próxima a cero.

AH! Vaya!

Tiene lógica, en t student las varianzas entre las dos muestras deben ser igual porque supongo que debe ser dificil comparar dos muestras con varianzas muy diferentes, por ejemplo, se me ocurre.

Medimos la altura de 20 adultos de aproximadamente la misma edad, todos varones y de la misma raza. Esa es nuestra muestra A.

Medimos la altura de 20 personas en la calle incluyendo niños, niñas, mujeres, y hombres y que además son de varias razas. Esa es nuestra muestra B

Por lógica, la muestra A tendrá una media y con una varianza muy baja, ya que casi todos miden los mismo.

Sin embargo, la muestra B, quizá, hubo unos muy altos y algunos muy bajos, pero tal vez, con esos muy altos se compensó y la media resultó ser igual que la de la muestra A. Comparando sólo las medias diríamos que las dos poblaciones tienen casi la misma altura. Sin embargo, la varianza de B sería muy grande.

Comparar esas dos medias con la t de student debe ser poco válido, pero ya veremos más adelante por qué.

No hay comentarios:

Publicar un comentario