martes, 23 de noviembre de 2010

Calculando la FFT en MATLAB

Algo tan sencillo pero como nadie nace sabiendo, aquí un ejemplo de como hacerlo.

image

Ok, supongamos que tienen la señal que aparece en la figura de arriba, la cual por cierto, es una señal real de aceleración en la cintura de un sujeto de pie al que se le pidió que no se moviera. Como pueden ver, aun cuando no es notable a simple vista, hay mucho movimiento.

Nos interesa saber a que frecuencia está oscilando su cintura. Para ello, la forma más fácil es obtener la Transformada de Fourier.

Y eso es tan fácil como escribir  lo siguiente en MATLAB

y=fft(d);

Y listo, tenemos nuestra FFT en la variable “y”. Ahora, si queremos verla en una gráfica y hacemos lo siguiente:

plot(y);

obtenemos

image

¿Qué es eso?

Bueno, lo que pasa es que hay que graficar esos datos junto con el vector de frecuencias. En esta caso muestreamos la señal a 100Hz y tenemos 3001 muestras, es decir, un poco más de 30 segundos así que hay que hacer un vector para eso:

f=linspace(0,100,length(y));

Ahora ya tenemos un vector con los datos del tiempo

Graficamos frecuencias (f) vs FFT y obtenemos

plot(f,y)

image

Sin embargo obtenemos un mensaje de alerta de MATLAB que dice:

Warning: Imaginary parts of complex X and/or Y arguments ignored.

Es decir, está omitiendo los datos imaginarios que generó la FFT, como ya se imaginaran, la FFT genera datos complejos que contienen la magnitud de la frecuencia y su fase. La fase en la parte compleja. Sin embargo, para esta aplicación sólo nos interesa la magnitud.

Además, observando la gráfica de arriba observamos que la señal se repite en el extremo opuesto, como un espejo. A nosotros sólo nos interesa la primera parte así que:

Sacamos la magnitud de la FFT y graficamos sólo la mitad

>> y=abs(y(1:fix(end/2)));
>> f=f(1:fix(end/2));
>> plot (f,y);

image

Ahora sí, ya tenemos la magnitud de las frecuencias de la señal.

Sin embargo aún hay que considerar que, la FFT entrega los resultados escalados por el número de total de muestras, así que para encontrar verdadera magnitud de la frecuencia debemos dividir entre el número total de muestras. Además, debido a la forma de calcular la FFT, también es necesario multiplicar el valor por 2. ver ecuación Euler

image

Haciendo la división entre 1500 y multiplicación por 2 tenemos:

>> y=2*y/3001;
>> plot (f,y);

image

En el eje x tenemos la frecuencia (Hz) y en el eje Y, la amplitud de aceleración (g) para cada frecuencia.

Aquí una script que hace lo expuesto arriba

%script to calculate the frecuency behaviour by FFT and Pwelch
d=b1(:,1);
%Calculating the fft
yfft=2*abs(fft(d))/length(d);  %Calcula la FFT, divide entre el numero de muestras y multiplica por 2
yfft=yfft(1:fix(end/2),:);      %Deja solo la mitad de la FFT
t=linspace(0,50,length(yfft));  %Hace vector de frecuencias 50=100Hz/2
[yfft_max indx]=max(yfft);      %Encuentra el pico maximo y su ubicacion
f_main=t(indx);                 %encuentra la ubicacion de acuerdo al vector de frecuencias
plot (t,yfft,f_main,yfft_max,'o');  % grafica la FFT con sus picos maximos encerrados en un circulo

image

La grafica con indica que la mayor concentración de energía de la señal esta en el rango de frecuencias de 0 a 20Hz.

lunes, 22 de noviembre de 2010

T student

Una vez que comprobamos que nuestros datos son normales y homogéneos se puede proceder a efectuar la t-student para ver si hay cambios con los ojos cerrados y con los ojos abiertos en un mismo sujeto.

    Ojos abiertos     Ojos cerrados  
  x y z x y z
T1 0.0011122 0.0023494 0.00087428 0.0010518 0.0023124 0.00083953
T2 0.0010681 0.0018053 0.00078507 0.0010517 0.0029894 0.0010194
T3 0.0010661 0.0025306 0.00075497 0.0010953 0.0027386 0.00077399
T4 0.0010263 0.0022968 0.0008034 0.0010179 0.0030275 0.00077722

En la tabla superior tenemos los datos de aceleración RMS para los tres ejes del espacio 3D.

Queremos comparar si hay diferencia entre cada eje cuando cierra los ojos y cuando tiene los ojos abiertos.

Usando una calculadora online: http://www.graphpad.com/quickcalcs/index.cfm y eligiendo:

Paired test, por que nuestros datos provienen del mismo individuo.

Nos arroja los siguientes datos para el eje X

  Group abiertos    cerrados 
Mean 0.0010682 0.00105418
SD 0.0000351 3.1722E-05
SEM 1.755E-05 1.5861E-05
N 4           4          

Con un valor p=0.5018. Si nuestro valor mínimo de p=0.05, entonces la diferencia no es estadísticamente significativa y asumimos que

No hay diferencia de aceleración en el eje x (ML) cuando el individuo cierra o abre los ojos.

Usando el t-student test que tiene MATLAB incluido tenemos

>> [h,p]=ttest2(aveg(:,1),aveg(:,4),0.05)    alfa=0.05

h =

     0

p =

    0.5750

H=0 lo que indica que los promedios son iguales, es decir, no hay diferencia entre ojos cerrados y abiertos, nótese que el valor de p es ligeramente diferente al de la página web, quizá por el la exactitud.

Usando una función en MATLAB hecha por Gussiepe Cardillo, obtenemos los siguientes resultados:

>> statdis=testt(aveg(:,1),aveg(:,4),1,0.05,2)  %paired, alfa=0.05, 2-tails
STUDENT'S T-TEST FOR PAIRED SAMPLES
------------------------------------------------------------
Mean of difference                95% C.I.
------------------------------------------------------------
0.0000                    -3.1824            3.1825
------------------------------------------------------------
t                DF              tail            p-value
------------------------------------------------------------
0.76271            3.0000            2            0.50113
------------------------------------------------------------
It is a two-tailed hypothesis test.
(The null hypothesis was not statistically significative.)
Power is: 0.0616

En esta caso, el valor de p=0.50113 muy similar a los anteriores y al igual que los anteriores, la hipotesis de que las medias son diferentes es rechazada, Se asume que no hay cambios entre ojos cerrados y abiertos para el eje X.

Probando para los otros ejes.

Para el eje Y

testt(aveg(:,2),aveg(:,5),1,0.05,2)
STUDENT'S T-TEST FOR PAIRED SAMPLES
------------------------------------------------------------
Mean of difference                95% C.I.
------------------------------------------------------------
0.0005                    -3.1819            3.1830
------------------------------------------------------------
t                DF              tail            p-value
------------------------------------------------------------
1.91145            3.0000            2            0.15191
------------------------------------------------------------
It is a two-tailed hypothesis test.
(The null hypothesis was not statistically significative.)
Power is: 0.1540

Para el eje z

testt(aveg(:,3),aveg(:,6),1,0.05,2)
STUDENT'S T-TEST FOR PAIRED SAMPLES
------------------------------------------------------------
Mean of difference                95% C.I.
------------------------------------------------------------
0.0000                    -3.1824            3.1825
------------------------------------------------------------
t                DF              tail            p-value
------------------------------------------------------------
0.76138            3.0000            2            0.50181
------------------------------------------------------------
It is a two-tailed hypothesis test.
(The null hypothesis was not statistically significative.)
Power is: 0.0616

Con lo que se confirma que este sujeto no tiene cambios significativos entre ojos abiertos y cerrados, aunque en el eje Y hay una differencia más marcada.

Una página donde explican como aplicar un test t-student en MATLAB

NOTA: Se usa t-student de dos colas “two tailed” porque sólo nos interesa probar que son diferentes sin importar si es menor una que otra. En general, siempre que se comparan dos grupos se usa de dos colas, si se compara un grupo contra un promedio ya definido, entonces se usa de una sola cola.

Test de normalidad

Otro de los requisitos del test t-student es que vengan de una población normal, no, no quiere decir que haya poblaciones anormales… bueno, sí, pero se trata de otra cosa.

Me refiero a una población normalmente distribuida, es decir que la distribución de frecuencia de los datos medidos se comporte así:

imageSegún este documento, probar esto con grupos de muestras menores a 30 datos  es imposible y con grupos de muestras menores a 100 es muy difícil.

Por lo tanto, para probar que mis datos se comportan en forma de distribución normal debería haber tomado al menos 100 muestras y no 4 como las que tomé a cada individuo. :-(

Sin embargo, existen varios test para probar la normalidad de dos datos, uno de ellos el test de kolmogorov-smirnov y el otro el de Lliefors.

Aunque ninguno de ellos mencioan el numero minimo de muestras con el que pueden trabajar, aplicando ambos a mis datos:

x =

    0.0011
    0.0011
    0.0011
    0.0010
    0.0011

Aplicando el de Kolmogorov-smirnov en MATLAB

>> h=kstest(x)

h =

     0

H es igual a cero lo que indica que X tiene una distribución standar normal.

Aplicando el de Lilliefors obtenemos:

>> h=lillietest (x)

h =

     0

Lo que sigue indicando una distribución normal, además, generalmente este tipo de datos siempre sigue una distribución normal así que, asumimos que los datos se comportan normalmente.

Muestras pareadas y muestras no pareadas

Antes de aplicar el test t-student es necesario saber si nuestras muestras son pareadas o no pareadas. Pero que significa esto y como saber de que tipo son mis datos

Un ejemplo muy simple encontrado aquí:

Nos dice que las muestras pareadas se obtiene usualmente de distintas observaciones realizadas sobre los mismos individuos. Por ejemplo.

Medir la glucosa en 10 personas en la mañana = Muestra A

Medir la glucosa de las mismas personas en la tarde= Muestra B

También se le conoce como muestras asociadas.

En mi caso, tengo 8 muestras tomadas del mismo individuo, 4 con los ojos abiertos y 4 con los ojos cerrados. Por lo tanto tengo muestras pareadas.

Cuando compruebe datos entre diferentes individuos ancianos vs jóvenes, entonces tendré muestras no pareadas.

Probando si las varianzas son igual

Ya vimos en este post que las varianzas nos indica el grado de dispersion de los datos y que, uno de los requisitos de la prueba de t student es que las varianzas sean iguales.

Un método para probar si las varianzas son iguales es el propuesto por Levene. Aunque aquí dice es una alternativa al test de Bartlett, el cual es preferible, yo acabo de encontrar una función para el test de Levene y por eso los pongo aquí.

Antonio Trujillo, un profesor de una universidad en Baja California, México, implementó una función en MATLAB para hacer el test de Levene con datos de entrada provenientes de varias muestras en una columna y el indicador de la muestrs en la columna dos.

Por ejemplo:

0.258 1
0.265 1
0.865 2
0.665 2

Es decir, hay dos grupos muestreales. Para bajar esta función puedes ir a esta dirección:

http://www.mathworks.com/matlabcentral/fileexchange/3375-levenetest

Sin embargo, a mi me conviene más meter los datos en una columna por grupo muestreado, así

0.258 0.865
0.265 0.665

De modo que modifiqué su función con lo siguiente justo abajo de la declaración de función.

x1=X(:,1); x2=X(:,2);  %Split samples
samp=ones(length(x1));
samp=samp(:,1);
X=[[x1 samp];[x2 samp*2]];      %Joining samples

Así puedo meter los datos como yo quiero.

Según wikipedia, la formula para esta comprobación de Levene es:

image

donde W es el resultado del test y ese valor será comparado con un valor alfa.

k= numero de grupos diferentes al cual pertenecen las muestras

N= Numero total de muestras

Ni=numero de muestras en el grupo i

Yij= El valor de la j muestra en el grupo i.

image  image

En fin, no nos quebraremos la cabeza para entender porqué funciona y diremos que funciona, sólo hay que usarlo.

W se comprueba contra  F(α,k − 1,Nk) donde F es una funcion de distribución  y alfa es el nivel de significancia.

Tampoco trataremos de entender esto ahora, sólo usaremos la función.

Ejemplo de mi aplicación, X=.

-0.0046843    -0.00071395
-0.0041877    -0.00039032
-0.003704    -9.9263e-005
-0.0032499    0.0001396

Mis dos grupos de muestras. Aceleración RMS del centro de gravedad de un cuerpo con los ojos cerrados y con los ojos abiertos.

Es igual la varianza en los dos grupos?

Usando la función de Antonio Trujillo modificada por mi.

Levenetest(X,0.05)

Obtenermos los siguientes resultados:

The number of samples are: 2

-----------------------------
Sample    Size      Variance
-----------------------------
   1        4         0.0000
   2        4         0.0000
-----------------------------
Levene's Test for Equality of Variances F=1.4602, df1= 1, df2= 6
Probability associated to the F statistic = 0.2724
The associated probability for the F test is equal or larger than 0.05
So, the assumption of homoscedasticity was met.

En este caso, el resultado fue p=0.2724 que es mayor a mi valor fijado de alfa=0.05 lo que quiere decir que, muy improbable que la varianza de mis muestras haya sido semejante por azar así que, se asume que las varianzas son iguales.

O en palabras más fáciles, si el resultado es mayor que alfa, quiere decir que la varianza NO es igual y no podrás usar la t student para compara muestras.

La varianza

Para usar el método de comparación de medias, uno de los requisitos es que la varianza de nuestras muestras sea igual.

Pero para empezar, ¿Qué diablos es la varianza?

Según wikipedia:

En teoría de probabilidad, la varianza o coeficiente de variación (que suele representarse como σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Pfff! Como que no me quedó muy claro!! :-(

Leyendo aquí dice que hay dos símbolos para varianzas, S2 para datos muestrales, y σ2 para datos poblacionales. Sólo eso saqué en claro porqué después otra vez lo complica.

Bueno, supongamos que queremos saber la varianza de la altura promedio de todo el mundo. Varianza poblacional se obtendría midiendo a todo el mundo y calculandola. Pero obviamente eso no es práctico así que recurrimos a tomar una muestra, quizá medir a un pueblo o ciudad y calcular la varianza. Entonces, esa sería la varianza muestreal.

image                      image

Las formulas para cada uno difieren un poco pero en términos prácticos siempre estaremos usando la varianza muestreal, es decir, la s. n es el tamaño de la muestra.

¡Ah!  Ahora ya entendí eso, pero, que es la varianza. Aún no lo explican.

Bueno, De la formula de arriba vemos que sacamos la diferencia entre cada valor muestreado y la media de todos los valores muestreado, esa diferencia la elevamos al cuadrado y sumamos esos valores para todas las muestras para al final, dividir entre el numero de muestras.

En términos simples, ese numero que obtenemos nos dirá que tan dispersos están nuestros datos de la media.

Si toda la población mide mas o menos lo mismo, el valor de xi-mean(x) será casi cero y s debe ser también próxima a cero.

AH! Vaya!

Tiene lógica, en t student las varianzas entre las dos muestras deben ser igual porque supongo que debe ser dificil comparar dos muestras con varianzas muy diferentes, por ejemplo, se me ocurre.

Medimos la altura de 20 adultos de aproximadamente la misma edad, todos varones y de la misma raza. Esa es nuestra muestra A.

Medimos la altura de 20 personas en la calle incluyendo niños, niñas, mujeres, y hombres y que además son de varias razas. Esa es nuestra muestra B

Por lógica, la muestra A tendrá una media y con una varianza muy baja, ya que casi todos miden los mismo.

Sin embargo, la muestra B, quizá, hubo unos muy altos y algunos muy bajos, pero tal vez, con esos muy altos se compensó y la media resultó ser igual que la de la muestra A. Comparando sólo las medias diríamos que las dos poblaciones tienen casi la misma altura. Sin embargo, la varianza de B sería muy grande.

Comparar esas dos medias con la t de student debe ser poco válido, pero ya veremos más adelante por qué.

Distribución de datos..II

Para complicarnos más las cosas al proceso siguiente también le llaman hacer un histograma o distribución de frecuencias, entro otros.

Para el caso de datos continuos debemos seguir los siguientes pasos:

  • Paso 1

Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.

  • Paso 2

Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.

  • Paso 3

Establecer la longitud de clase: es igual al rango dividido por el número de clases.

  • Paso 4

Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales.

  • Paso 5

Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.

Momento… vamos a hacerlo con un ejemplo para mayor claridad

Supongamos que tenemos la siguiente lista de datos:

5.26 8.96 5.64 9.02 7.52 6.25 8.52 7.12
6.9 7.44 10.08 8.65 6.68 7.63 7.23 7.1
8.64 8.82 3.81 6.72 7.98 6.73 7.63 4
5.47 5.88 6.81 8.26 10.27 7.6 6.95  
6.07 7.62 7.49 7.9 7.64 8.14 7.78  
6.48 5.67 4.56 6.65 7.17 6.91 10.34  
8.72 9 7.16 7.25 8.06 7.82 6.65  
9.16 5.6 8.61 6.26 6.66 6.76 6.86  
5.85 7.64 3.86 6.43 8.26 7.75 7.74  
8.51 8.82 6.78 7.71 6.67 7.36 6.67  

Son datos del tipo continuo y queremos descubrir su distribución.

Paso 1 Determinando el rango de valores

Encontramos el mayor y el menor valor de toda la lista, en este caso 10.34 es el máximo y 3.81 es el valor mínimo.

Nuestro rango de valores R= 10.34-3.81=6.53.

Paso 2 OBTENER EL NÚMERO DE CLASES

La teoría dice que hay que establecer el numero de clases o intervalos (k), primero. En la práctica se eligen entre 5 a 15 intervalos o se calcula la raíz cuadrada de numero de muestras o la regla de sturges que no tengo idea de que sea.

Vamos a hacerlo con la raiz cuadrada.

Tenemos 73 muestras por lo que sqrt(73)=8.54, redondeamos al numero mayor 9

Usandola regla de sturges nos da 7.21 por lo que vamos a usar 8 intervalos.

Paso 3 ESTABLECIENDO LA LONGITUD O RANGO DE LA CLASE

Es muy simple, sólo dividimos el rango entre el número de clases.

6.53/8=0.81.

Así tendremos 8 clases con rango de 0.81 cada una.

Pero que pasa si usamos esta distribución y seguimos mediendo, Quizá alguno de los valores no entre en el rango, así que se decide usar un llamado,”rango extendido”. hacemos ese 0.81 un poco más grande, en este caso 0.9 y decimos que el rango extendido es:

R'=numero de clases * rango de clase= 8*0.8=7.2 pero este rango es mayor que el que estamos contemplando ahora así que hay que hay que distrinbuir esa difrencia a ambos lados del rango total.

7.2-6.53=0.67,                      0.67/2=0.335 lo cual restamos al primer valor y ese será nuestro inicio de clases. En este caso, el valor minimo es 3.81.

3.81-0.335=3.475

Ahora definiendo nuestros intervalos de clase tenemos:

3.457—4.375—5.275—6.175—7.075—7.975—8.875—9.775—10.675

O más definidos, son así.

(3.475,4.375], (4.375,5.275], (5.275,6.175], (6.175,7.075], (7.075,7.975], (7.975,8.875], (8.875,9.775], (9.775,10.675]

También´n suelen usar algo que se llama “MARCA DE CLASE” que no es más que la mitad de cada intervalo.

3.925, 4.825, 5.725, 6.625, 7.525, 8.425, 9.325, 10.225

Ahora sí, empezamos a contar que numeros y cuantas veces aparecen en cada rango de clases. y obtenermos los siguiente.

Clase 1: 3 datos   (3.81, 4, 3.86)

Clase 2, 2 datos,

Clase 3, 7 datos,

Clase 4, 19 datos,

clase 5, 22 datos.

clase 6, 13 datos,

clase 7, 4 datos

clase 8, 3 datos

Algunos suelen manejar las frecuencias relativas que no es más que cada numero de datos dividido entre el numero total de muestras, en este caso, 73.

image

tabla de tomada de: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

Así tenemos nuestra tabla de resultados, sin embargo se ve mejor la distribución en forma gráfica, al menos para mi.

Si lo graficamos en MATLAB con la siguiente instrucción.

[x,y]=hist(r,8)   Nos entrega los siguientes datos

 

Frecuencia de datos 4 1 8 18 21 11 7 3
Marca de frecuencia 4.2181 5.0344 5.8506 6.6669 7.4831 8.2994 9.1156 9.9319

image

Si bien los resultados varían un poco debido al método empleado por el algoritmo en matlab, (quizá no usa el rango extendido), la distribución es muy similar a la calculada. Claramente se ve que hay más valores concentrados al rededor de 7

 

Basado en: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

Distribuciones (¿continuas o discretas?)… Tipos de datos

Para aplicar algunos métodos probabilísticos se nos pide que sepamos primero, ¿como es la distribución de datos. Pero para encontrar la distribución de datos hay que saber primero, ¿Qué tipos de datos estamos manejando?

Hay 4 tipos de datos que se dividen en cuantitativos y cualitativos

Cuantitativos

Continuos: Pueden tomar cualquier valor ya sea entero o decimal dentro de un rango. Por ejemplo, medir el grosor de los cabellos de 100 personas. Los valores pueden variar infinitamente dentro de un rango en valores. por ejemplo 0.005, 0.055,0.05555,0.0054,0.0049, etc. Esos son datos continuos.

Discretos: Los datos discretos varían a pasos bien establecidos. Por ejemplo, cuantos discos defectuosos hay en una carga de cajas de discos piratas. Los valores siempre incrementarán en unidades ya que no podemos encontrar 1.5 discos defectuosos, es decir, o el disco esta defectuoso o no o está. Esos son los datos discretos que varían con incrementos determinados. y generalmente no aceptan puntos fraccionarios.

Cualitativos

Nominales: Son datos asignados por categorías, por ejemplo género (hombre o mujer), carrera, material de construcción, etc. No se les puede asignar un valor numérico por ejemplo, no se puede decir es 0.8 hombre. Lo que se puede hacer es asignarles una categoría y entonces contar cuantos de ellos hay en cada categoría. Así obtenemos un número.

Jerarquizados: Son datos cualitativos que se refieren a evaluaciones subjetivas, por ejemplo, primer lugar, segundo lugar, etc.  al igual que los nominales se pueden agrupar y contar por categoría.

Tanto los datos nominales o jerarquerizados al categorizarlos y contarlos se convierten en datos discretos.

 

 

Ahora veremos un concepto que es distribución de frecuencias, es decir como se repiten los datos si tomamos varias muestras de un evento.

 

 

 

 

Basado en: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

Datos continuos o discretos?

Hay dos tipos de distribuciones de probabilidad, continua y discreta. MATLAB en sus archivos de ayuda trata de explicar un poco de esto a la vez que otorga una tabla de

image

La columna uno nos indica el tipo de distribución de datos. es decir, cuantos valores iguales tenemos de cada uno de los datos. Supongamos que tenemos una lista así:

1 4 5 3 5 1 5 4 1 3

imageContando cuantas veces aparece cada valor tenemos que hay 3 “unos”, 3, “cincos”, 2 “cuatros”, 2 “tres”. Lo cual, graficado nos da algo como la figura siguiente. Esta es la distribución de datos. Muchos trabajos han permitido generalizar las distribuciones de datos en formas bien determinadas, como las que se muestran en la figura de abajo. Ahí tenemos algunas de las distribuciones más famosas o típicas.

image
normal

image
Weibull

image
Chi-square

En el caso de las gráficas arriba, las distribuciones están normalizadas por lo que la media de los valores es cero.

Comparando promedios

Yo sólo quería comparar dos promedios de una lista de datos y la he hecho tantas veces pero nunca me he puesto a analizar a fondo si el método que estoy aplicando es correcto para el tipo de datos que estoy analizando.

Leyendo un en diversos medios uno puede encontrar mucha bibliografía acerca de la comparación de dos grupos y muchos términos que termina por confundir bastante.

Por ejemplo, que la distribución, que si es normal o o no. Variables continuas o discretas, modelos lineales, test de hipótesis,, función de probabilidad por densidad o acumulativa, varianzas similares, media iguales, y tantos otros términos.

En los siguientes post trataré de entender de que va esto haciendo notas al respecto.