martes, 17 de septiembre de 2013

Antena QuantumFX (ANT-105)

Después de que mi antena master para exteriores dejara de funcionar por alguna razón que aún desconozco, decidí comprar otra antena. Encontré una antena steren y una antena phillips como las de las figuras siguientes:

image
Phillips ($499 MNX)
image
Steren ($ 440 MXN)

Casi las compro pero al final no me decidí por ninguna y compré una antena quatumFX de fabricación China. Bueno, en realidad las otras también fueron fabricadas en China sólo comercializadas por otras marcas más conocidas. Busqué datos en internet sobre estas antenas pero no encontré nada. Por eso, aquí publico los resultados encontrados con esta antena QUANTUMFX.

La antena luce así en su caja:

R0024855

Incluye:

  • 15 metros de cable coaxial de 75 ohms (muy delgado por cierto)
  • 15 cinchos de plástico para sujetar el cable a su base
  • 25 grapas para sujetar el cable a la pared
  • Antena como se muestra en la caja
  • Control remoto
  • Unidad amplificadora y controladora de rotación de la antena.
R0024853

R0024854

Tiene salida para dos aparatos de TV, una de ellas ya tiene un cable coaxial saliendo desde el aparato y la otra salida es por medio de la clásica salida para conexión de campana.

Tuve que abrir la caja porque su interruptor no servía. Así es como luce por dentro:

R0024849 R0024851

Como pueden ver, tanto el material como el interior es de muy baja calidad. De hecho, el interruptor no prendía porque soldaron mal los cables al apagador y estaban puenteados.

En fin, una vez armada la antena y colocada, quedó como en la foto de abajo.

R0024857 R0024858

Yo supongo que las antenas transmisoras están en el cerro que se ve al fondo de la segunda foto, el que está cubierto con neblina. Precisamente donde está la nube allí están las antenas transmisoras. Se encuentran a unos 3.5 o 4 km en línea recta desde la posición de la antena.

No hay edificios que obstruyan la transmisión de la señal y sólo algunos árboles en el camino pero podríamos decir que las condiciones son muy buenas. Exceptuando las nubes.

Los resultados obtenidos con esta antena son:

R0024856

Según la TV (Sony), después de hacer un escaneo de canales encontró 9 analógicos y 5 canales digitales. Pero algunos de ellos totalmente borrosos y varios fantasmas (repeticiones de otros canales)

En general capta 4 canales digitales y 4 canales analógicos. Los analógicos con un poco de “lluvia” pero aceptables. Los digitales, dos de ellos muy estables y el resto con congelamiento y pérdida de la señal en forma intermitente.

Cabe mencionar que las pruebas se hicieron con lluvia ligera y nubes cubriendo el cerro en el que se encuentran las antenas.

Comparación:

Con la antena Master que tenía antes obtenía uno o dos canales digitales más y al menos otros dos canales analógicos. Esperemos a que mejore el clima para ver si ésta puede hacer lo mismo.

En resumen. Es una antena que puede funcionar pero no esperen mucho de ella. Su hoja de datos da las siguientes especificaciones:

  • Frecuencia de operación: 45 – 680 MHz
  • Ganancia del amplificador (25 –35 dB)  (Las mencionadas al inicio daban 25dB máximo.
  • Impedancia 75 Ohms
  • Voltaje de operación 110 –127 VAC, 60Hz (Debo mencionar que se calienta el transformador)
  • Potencia demandada:  3 Watts
  • Velocidad de rotación: 4 RPM
  • Ángulo de rotación 350 grados. (cuando rota la señal se debilita mucho por lo que se recomienda moverla y esperar a que se estabilice la señal antes de continuar moviéndola.

Cuando rota, al llegar a su tope empieza a girar en sentido contrario automáticamente aunque sigan presionando el botón. Es bueno pero a veces, al soltar el botón y volver a presionarlo empieza a girar hacia el lado contrario aunque se siga presionando el mismo botón.

lunes, 2 de mayo de 2011

Función de coherencia

En el diseño de sistemas electrónicos para procesamiento de señales analógicas se dice que el el sistema debe ser considerado como aislado, linear y no variante en el tiempo.

Asumiendo esa condición se dice que el estímulo usado es sólo aquel que se aplica a la entrada del sistema y entonces, la respuesta es debida sólo a la entrada aplicada. Si ya se calculó la función de transferencia del sistema, entonces, esta describe el comportamiento del sistema en todo momento y frecuencia.

Sin embargo, en situaciones reales, los sistemas electrónicos presentan algunos componentes de frecuencia adicionales que no están presentes en la señal de entrada. Estos componentes generan un error en el calculo de la función de transferencia. Algunos ejemplos de estos errores pueden ser ruido interno en el sistema, ruido externo o señales y sistemas no lineales.

La figura de abajo muestra el modelo de un sistema real.

image

Para investigar estos problemas, un método consisten en el uso de CROSS SPECTRUM FUNCTION con un adecuado nivel de promediado lineal.

La FUNCION DE COEHERENCIA es muy eficiente y precisa.

Esta función proporciona una buena estimación de la salida de energía debida exclusivamente a la señal de entrada.

La función de coherencia es una función frecuecial  adimensional  que tiene sólo la parte real y entrega valores en el rango de 0 a 1.

A cada frecuencia, el valor máximo es presente a frecuencia realmente aplicadas a la entrada mientras que el valor mínimo se presenta a frecuencias traslapadas a la salida y, entonces, no correlacionadas con la señal de entrada.

En otras palabras. las función de coherencia es la fracción de la potencia de salida debida sólo a la señal de entrada.

image

En aplicaciones reales, la ecuación usada para calcular la coherencia es:

imageLos valores de la funcion de transferencia pueden ser menos de 1 en los siguientes casos.

  • Mediciones contaminadas por ruido no relacionado
  • Mediciones contaminadas por alguna fuente de ruido externo
  • Sistema no lineal
  • Entradas adicionales presentes en el sistema
  • Error de fuga no reducido por windowing

Calzetti et al. Usaron la función de coherencia para encontrar el mecanismo que causa el temblor en las manos. Ellos calcularon la función de coherencia usando los espectros de frecuencia de 150 individuos cuyos temblores fueron grabados usando un acelerómetro.

Querían medir el grado de relación causal entre el temblor de las dos manos y su respectivo pico de frecuencia. La coherencia toma valores de 0 a1  donde: Cero indica que las dos señales de temblor están totalmente no relacionadas y 1 indica que las señales están completamente relacionadas., es decir, que una sola señal  controla el temblor en las dos manos.En otras palabras, que tienen el mismo origen.

image

Aquí un cálculo de coherencia usando matlab

% Illustrate estimation of coherence function 'cohere' 
% in the Matlab Signal Processing Toolbox
% or Octave with Octave Forge:
N = 1024; % number of samples
x=randn(1,N); % Gaussian noise
y=randn(1,N); % Uncorrelated noise
f0 = 1/4; % Frequency of high coherence
nT = [0:N-1]; % Time axis
w0 = 2*pi*f0;
x = x + cos(w0*nT); % Let something be correlated
p = 2*pi*rand(1,1); % Phase is irrelevant
y = y + cos(w0*nT+p);
M = round(sqrt(N)); % Typical window length
[cxyM,w] = cohere(x,y,M); % Do the work
figure(1); clf;
stem(w/2,cxyM,'*'); % w goes from 0 to 1 (odd convention)
legend(''); % needed in Octave
grid on;
ylabel('Coherence');
xlabel('Normalized Frequency (cycles/sample)');
axis([0 1/2 0 1]);
replot; % Needed in Octave
saveplot('../eps/coherex.eps'); % compatibility utility

Con datos de:


http://www.fermilecce.it/index2.php?option=com_docman&task=doc_view&gid=49&Itemid=92


https://ccrma.stanford.edu/~jos/st/Coherence_Function_Matlab.html


Calzetti, S. et al., 1987. Frequency/amplitude characteristics of postural tremor of the hands in a population of patients with bilateral essential tremor: implications for the classification and mechanism of essential tremor. Journal of Neurology, Neurosurgery & Psychiatry, 50(5), pp.561 -567.

martes, 23 de noviembre de 2010

Calculando la FFT en MATLAB

Algo tan sencillo pero como nadie nace sabiendo, aquí un ejemplo de como hacerlo.

image

Ok, supongamos que tienen la señal que aparece en la figura de arriba, la cual por cierto, es una señal real de aceleración en la cintura de un sujeto de pie al que se le pidió que no se moviera. Como pueden ver, aun cuando no es notable a simple vista, hay mucho movimiento.

Nos interesa saber a que frecuencia está oscilando su cintura. Para ello, la forma más fácil es obtener la Transformada de Fourier.

Y eso es tan fácil como escribir  lo siguiente en MATLAB

y=fft(d);

Y listo, tenemos nuestra FFT en la variable “y”. Ahora, si queremos verla en una gráfica y hacemos lo siguiente:

plot(y);

obtenemos

image

¿Qué es eso?

Bueno, lo que pasa es que hay que graficar esos datos junto con el vector de frecuencias. En esta caso muestreamos la señal a 100Hz y tenemos 3001 muestras, es decir, un poco más de 30 segundos así que hay que hacer un vector para eso:

f=linspace(0,100,length(y));

Ahora ya tenemos un vector con los datos del tiempo

Graficamos frecuencias (f) vs FFT y obtenemos

plot(f,y)

image

Sin embargo obtenemos un mensaje de alerta de MATLAB que dice:

Warning: Imaginary parts of complex X and/or Y arguments ignored.

Es decir, está omitiendo los datos imaginarios que generó la FFT, como ya se imaginaran, la FFT genera datos complejos que contienen la magnitud de la frecuencia y su fase. La fase en la parte compleja. Sin embargo, para esta aplicación sólo nos interesa la magnitud.

Además, observando la gráfica de arriba observamos que la señal se repite en el extremo opuesto, como un espejo. A nosotros sólo nos interesa la primera parte así que:

Sacamos la magnitud de la FFT y graficamos sólo la mitad

>> y=abs(y(1:fix(end/2)));
>> f=f(1:fix(end/2));
>> plot (f,y);

image

Ahora sí, ya tenemos la magnitud de las frecuencias de la señal.

Sin embargo aún hay que considerar que, la FFT entrega los resultados escalados por el número de total de muestras, así que para encontrar verdadera magnitud de la frecuencia debemos dividir entre el número total de muestras. Además, debido a la forma de calcular la FFT, también es necesario multiplicar el valor por 2. ver ecuación Euler

image

Haciendo la división entre 1500 y multiplicación por 2 tenemos:

>> y=2*y/3001;
>> plot (f,y);

image

En el eje x tenemos la frecuencia (Hz) y en el eje Y, la amplitud de aceleración (g) para cada frecuencia.

Aquí una script que hace lo expuesto arriba

%script to calculate the frecuency behaviour by FFT and Pwelch
d=b1(:,1);
%Calculating the fft
yfft=2*abs(fft(d))/length(d);  %Calcula la FFT, divide entre el numero de muestras y multiplica por 2
yfft=yfft(1:fix(end/2),:);      %Deja solo la mitad de la FFT
t=linspace(0,50,length(yfft));  %Hace vector de frecuencias 50=100Hz/2
[yfft_max indx]=max(yfft);      %Encuentra el pico maximo y su ubicacion
f_main=t(indx);                 %encuentra la ubicacion de acuerdo al vector de frecuencias
plot (t,yfft,f_main,yfft_max,'o');  % grafica la FFT con sus picos maximos encerrados en un circulo

image

La grafica con indica que la mayor concentración de energía de la señal esta en el rango de frecuencias de 0 a 20Hz.

lunes, 22 de noviembre de 2010

T student

Una vez que comprobamos que nuestros datos son normales y homogéneos se puede proceder a efectuar la t-student para ver si hay cambios con los ojos cerrados y con los ojos abiertos en un mismo sujeto.

    Ojos abiertos     Ojos cerrados  
  x y z x y z
T1 0.0011122 0.0023494 0.00087428 0.0010518 0.0023124 0.00083953
T2 0.0010681 0.0018053 0.00078507 0.0010517 0.0029894 0.0010194
T3 0.0010661 0.0025306 0.00075497 0.0010953 0.0027386 0.00077399
T4 0.0010263 0.0022968 0.0008034 0.0010179 0.0030275 0.00077722

En la tabla superior tenemos los datos de aceleración RMS para los tres ejes del espacio 3D.

Queremos comparar si hay diferencia entre cada eje cuando cierra los ojos y cuando tiene los ojos abiertos.

Usando una calculadora online: http://www.graphpad.com/quickcalcs/index.cfm y eligiendo:

Paired test, por que nuestros datos provienen del mismo individuo.

Nos arroja los siguientes datos para el eje X

  Group abiertos    cerrados 
Mean 0.0010682 0.00105418
SD 0.0000351 3.1722E-05
SEM 1.755E-05 1.5861E-05
N 4           4          

Con un valor p=0.5018. Si nuestro valor mínimo de p=0.05, entonces la diferencia no es estadísticamente significativa y asumimos que

No hay diferencia de aceleración en el eje x (ML) cuando el individuo cierra o abre los ojos.

Usando el t-student test que tiene MATLAB incluido tenemos

>> [h,p]=ttest2(aveg(:,1),aveg(:,4),0.05)    alfa=0.05

h =

     0

p =

    0.5750

H=0 lo que indica que los promedios son iguales, es decir, no hay diferencia entre ojos cerrados y abiertos, nótese que el valor de p es ligeramente diferente al de la página web, quizá por el la exactitud.

Usando una función en MATLAB hecha por Gussiepe Cardillo, obtenemos los siguientes resultados:

>> statdis=testt(aveg(:,1),aveg(:,4),1,0.05,2)  %paired, alfa=0.05, 2-tails
STUDENT'S T-TEST FOR PAIRED SAMPLES
------------------------------------------------------------
Mean of difference                95% C.I.
------------------------------------------------------------
0.0000                    -3.1824            3.1825
------------------------------------------------------------
t                DF              tail            p-value
------------------------------------------------------------
0.76271            3.0000            2            0.50113
------------------------------------------------------------
It is a two-tailed hypothesis test.
(The null hypothesis was not statistically significative.)
Power is: 0.0616

En esta caso, el valor de p=0.50113 muy similar a los anteriores y al igual que los anteriores, la hipotesis de que las medias son diferentes es rechazada, Se asume que no hay cambios entre ojos cerrados y abiertos para el eje X.

Probando para los otros ejes.

Para el eje Y

testt(aveg(:,2),aveg(:,5),1,0.05,2)
STUDENT'S T-TEST FOR PAIRED SAMPLES
------------------------------------------------------------
Mean of difference                95% C.I.
------------------------------------------------------------
0.0005                    -3.1819            3.1830
------------------------------------------------------------
t                DF              tail            p-value
------------------------------------------------------------
1.91145            3.0000            2            0.15191
------------------------------------------------------------
It is a two-tailed hypothesis test.
(The null hypothesis was not statistically significative.)
Power is: 0.1540

Para el eje z

testt(aveg(:,3),aveg(:,6),1,0.05,2)
STUDENT'S T-TEST FOR PAIRED SAMPLES
------------------------------------------------------------
Mean of difference                95% C.I.
------------------------------------------------------------
0.0000                    -3.1824            3.1825
------------------------------------------------------------
t                DF              tail            p-value
------------------------------------------------------------
0.76138            3.0000            2            0.50181
------------------------------------------------------------
It is a two-tailed hypothesis test.
(The null hypothesis was not statistically significative.)
Power is: 0.0616

Con lo que se confirma que este sujeto no tiene cambios significativos entre ojos abiertos y cerrados, aunque en el eje Y hay una differencia más marcada.

Una página donde explican como aplicar un test t-student en MATLAB

NOTA: Se usa t-student de dos colas “two tailed” porque sólo nos interesa probar que son diferentes sin importar si es menor una que otra. En general, siempre que se comparan dos grupos se usa de dos colas, si se compara un grupo contra un promedio ya definido, entonces se usa de una sola cola.

Test de normalidad

Otro de los requisitos del test t-student es que vengan de una población normal, no, no quiere decir que haya poblaciones anormales… bueno, sí, pero se trata de otra cosa.

Me refiero a una población normalmente distribuida, es decir que la distribución de frecuencia de los datos medidos se comporte así:

imageSegún este documento, probar esto con grupos de muestras menores a 30 datos  es imposible y con grupos de muestras menores a 100 es muy difícil.

Por lo tanto, para probar que mis datos se comportan en forma de distribución normal debería haber tomado al menos 100 muestras y no 4 como las que tomé a cada individuo. :-(

Sin embargo, existen varios test para probar la normalidad de dos datos, uno de ellos el test de kolmogorov-smirnov y el otro el de Lliefors.

Aunque ninguno de ellos mencioan el numero minimo de muestras con el que pueden trabajar, aplicando ambos a mis datos:

x =

    0.0011
    0.0011
    0.0011
    0.0010
    0.0011

Aplicando el de Kolmogorov-smirnov en MATLAB

>> h=kstest(x)

h =

     0

H es igual a cero lo que indica que X tiene una distribución standar normal.

Aplicando el de Lilliefors obtenemos:

>> h=lillietest (x)

h =

     0

Lo que sigue indicando una distribución normal, además, generalmente este tipo de datos siempre sigue una distribución normal así que, asumimos que los datos se comportan normalmente.

Muestras pareadas y muestras no pareadas

Antes de aplicar el test t-student es necesario saber si nuestras muestras son pareadas o no pareadas. Pero que significa esto y como saber de que tipo son mis datos

Un ejemplo muy simple encontrado aquí:

Nos dice que las muestras pareadas se obtiene usualmente de distintas observaciones realizadas sobre los mismos individuos. Por ejemplo.

Medir la glucosa en 10 personas en la mañana = Muestra A

Medir la glucosa de las mismas personas en la tarde= Muestra B

También se le conoce como muestras asociadas.

En mi caso, tengo 8 muestras tomadas del mismo individuo, 4 con los ojos abiertos y 4 con los ojos cerrados. Por lo tanto tengo muestras pareadas.

Cuando compruebe datos entre diferentes individuos ancianos vs jóvenes, entonces tendré muestras no pareadas.

Probando si las varianzas son igual

Ya vimos en este post que las varianzas nos indica el grado de dispersion de los datos y que, uno de los requisitos de la prueba de t student es que las varianzas sean iguales.

Un método para probar si las varianzas son iguales es el propuesto por Levene. Aunque aquí dice es una alternativa al test de Bartlett, el cual es preferible, yo acabo de encontrar una función para el test de Levene y por eso los pongo aquí.

Antonio Trujillo, un profesor de una universidad en Baja California, México, implementó una función en MATLAB para hacer el test de Levene con datos de entrada provenientes de varias muestras en una columna y el indicador de la muestrs en la columna dos.

Por ejemplo:

0.258 1
0.265 1
0.865 2
0.665 2

Es decir, hay dos grupos muestreales. Para bajar esta función puedes ir a esta dirección:

http://www.mathworks.com/matlabcentral/fileexchange/3375-levenetest

Sin embargo, a mi me conviene más meter los datos en una columna por grupo muestreado, así

0.258 0.865
0.265 0.665

De modo que modifiqué su función con lo siguiente justo abajo de la declaración de función.

x1=X(:,1); x2=X(:,2);  %Split samples
samp=ones(length(x1));
samp=samp(:,1);
X=[[x1 samp];[x2 samp*2]];      %Joining samples

Así puedo meter los datos como yo quiero.

Según wikipedia, la formula para esta comprobación de Levene es:

image

donde W es el resultado del test y ese valor será comparado con un valor alfa.

k= numero de grupos diferentes al cual pertenecen las muestras

N= Numero total de muestras

Ni=numero de muestras en el grupo i

Yij= El valor de la j muestra en el grupo i.

image  image

En fin, no nos quebraremos la cabeza para entender porqué funciona y diremos que funciona, sólo hay que usarlo.

W se comprueba contra  F(α,k − 1,Nk) donde F es una funcion de distribución  y alfa es el nivel de significancia.

Tampoco trataremos de entender esto ahora, sólo usaremos la función.

Ejemplo de mi aplicación, X=.

-0.0046843    -0.00071395
-0.0041877    -0.00039032
-0.003704    -9.9263e-005
-0.0032499    0.0001396

Mis dos grupos de muestras. Aceleración RMS del centro de gravedad de un cuerpo con los ojos cerrados y con los ojos abiertos.

Es igual la varianza en los dos grupos?

Usando la función de Antonio Trujillo modificada por mi.

Levenetest(X,0.05)

Obtenermos los siguientes resultados:

The number of samples are: 2

-----------------------------
Sample    Size      Variance
-----------------------------
   1        4         0.0000
   2        4         0.0000
-----------------------------
Levene's Test for Equality of Variances F=1.4602, df1= 1, df2= 6
Probability associated to the F statistic = 0.2724
The associated probability for the F test is equal or larger than 0.05
So, the assumption of homoscedasticity was met.

En este caso, el resultado fue p=0.2724 que es mayor a mi valor fijado de alfa=0.05 lo que quiere decir que, muy improbable que la varianza de mis muestras haya sido semejante por azar así que, se asume que las varianzas son iguales.

O en palabras más fáciles, si el resultado es mayor que alfa, quiere decir que la varianza NO es igual y no podrás usar la t student para compara muestras.

La varianza

Para usar el método de comparación de medias, uno de los requisitos es que la varianza de nuestras muestras sea igual.

Pero para empezar, ¿Qué diablos es la varianza?

Según wikipedia:

En teoría de probabilidad, la varianza o coeficiente de variación (que suele representarse como σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Pfff! Como que no me quedó muy claro!! :-(

Leyendo aquí dice que hay dos símbolos para varianzas, S2 para datos muestrales, y σ2 para datos poblacionales. Sólo eso saqué en claro porqué después otra vez lo complica.

Bueno, supongamos que queremos saber la varianza de la altura promedio de todo el mundo. Varianza poblacional se obtendría midiendo a todo el mundo y calculandola. Pero obviamente eso no es práctico así que recurrimos a tomar una muestra, quizá medir a un pueblo o ciudad y calcular la varianza. Entonces, esa sería la varianza muestreal.

image                      image

Las formulas para cada uno difieren un poco pero en términos prácticos siempre estaremos usando la varianza muestreal, es decir, la s. n es el tamaño de la muestra.

¡Ah!  Ahora ya entendí eso, pero, que es la varianza. Aún no lo explican.

Bueno, De la formula de arriba vemos que sacamos la diferencia entre cada valor muestreado y la media de todos los valores muestreado, esa diferencia la elevamos al cuadrado y sumamos esos valores para todas las muestras para al final, dividir entre el numero de muestras.

En términos simples, ese numero que obtenemos nos dirá que tan dispersos están nuestros datos de la media.

Si toda la población mide mas o menos lo mismo, el valor de xi-mean(x) será casi cero y s debe ser también próxima a cero.

AH! Vaya!

Tiene lógica, en t student las varianzas entre las dos muestras deben ser igual porque supongo que debe ser dificil comparar dos muestras con varianzas muy diferentes, por ejemplo, se me ocurre.

Medimos la altura de 20 adultos de aproximadamente la misma edad, todos varones y de la misma raza. Esa es nuestra muestra A.

Medimos la altura de 20 personas en la calle incluyendo niños, niñas, mujeres, y hombres y que además son de varias razas. Esa es nuestra muestra B

Por lógica, la muestra A tendrá una media y con una varianza muy baja, ya que casi todos miden los mismo.

Sin embargo, la muestra B, quizá, hubo unos muy altos y algunos muy bajos, pero tal vez, con esos muy altos se compensó y la media resultó ser igual que la de la muestra A. Comparando sólo las medias diríamos que las dos poblaciones tienen casi la misma altura. Sin embargo, la varianza de B sería muy grande.

Comparar esas dos medias con la t de student debe ser poco válido, pero ya veremos más adelante por qué.

Distribución de datos..II

Para complicarnos más las cosas al proceso siguiente también le llaman hacer un histograma o distribución de frecuencias, entro otros.

Para el caso de datos continuos debemos seguir los siguientes pasos:

  • Paso 1

Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.

  • Paso 2

Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.

  • Paso 3

Establecer la longitud de clase: es igual al rango dividido por el número de clases.

  • Paso 4

Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales.

  • Paso 5

Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.

Momento… vamos a hacerlo con un ejemplo para mayor claridad

Supongamos que tenemos la siguiente lista de datos:

5.26 8.96 5.64 9.02 7.52 6.25 8.52 7.12
6.9 7.44 10.08 8.65 6.68 7.63 7.23 7.1
8.64 8.82 3.81 6.72 7.98 6.73 7.63 4
5.47 5.88 6.81 8.26 10.27 7.6 6.95  
6.07 7.62 7.49 7.9 7.64 8.14 7.78  
6.48 5.67 4.56 6.65 7.17 6.91 10.34  
8.72 9 7.16 7.25 8.06 7.82 6.65  
9.16 5.6 8.61 6.26 6.66 6.76 6.86  
5.85 7.64 3.86 6.43 8.26 7.75 7.74  
8.51 8.82 6.78 7.71 6.67 7.36 6.67  

Son datos del tipo continuo y queremos descubrir su distribución.

Paso 1 Determinando el rango de valores

Encontramos el mayor y el menor valor de toda la lista, en este caso 10.34 es el máximo y 3.81 es el valor mínimo.

Nuestro rango de valores R= 10.34-3.81=6.53.

Paso 2 OBTENER EL NÚMERO DE CLASES

La teoría dice que hay que establecer el numero de clases o intervalos (k), primero. En la práctica se eligen entre 5 a 15 intervalos o se calcula la raíz cuadrada de numero de muestras o la regla de sturges que no tengo idea de que sea.

Vamos a hacerlo con la raiz cuadrada.

Tenemos 73 muestras por lo que sqrt(73)=8.54, redondeamos al numero mayor 9

Usandola regla de sturges nos da 7.21 por lo que vamos a usar 8 intervalos.

Paso 3 ESTABLECIENDO LA LONGITUD O RANGO DE LA CLASE

Es muy simple, sólo dividimos el rango entre el número de clases.

6.53/8=0.81.

Así tendremos 8 clases con rango de 0.81 cada una.

Pero que pasa si usamos esta distribución y seguimos mediendo, Quizá alguno de los valores no entre en el rango, así que se decide usar un llamado,”rango extendido”. hacemos ese 0.81 un poco más grande, en este caso 0.9 y decimos que el rango extendido es:

R'=numero de clases * rango de clase= 8*0.8=7.2 pero este rango es mayor que el que estamos contemplando ahora así que hay que hay que distrinbuir esa difrencia a ambos lados del rango total.

7.2-6.53=0.67,                      0.67/2=0.335 lo cual restamos al primer valor y ese será nuestro inicio de clases. En este caso, el valor minimo es 3.81.

3.81-0.335=3.475

Ahora definiendo nuestros intervalos de clase tenemos:

3.457—4.375—5.275—6.175—7.075—7.975—8.875—9.775—10.675

O más definidos, son así.

(3.475,4.375], (4.375,5.275], (5.275,6.175], (6.175,7.075], (7.075,7.975], (7.975,8.875], (8.875,9.775], (9.775,10.675]

También´n suelen usar algo que se llama “MARCA DE CLASE” que no es más que la mitad de cada intervalo.

3.925, 4.825, 5.725, 6.625, 7.525, 8.425, 9.325, 10.225

Ahora sí, empezamos a contar que numeros y cuantas veces aparecen en cada rango de clases. y obtenermos los siguiente.

Clase 1: 3 datos   (3.81, 4, 3.86)

Clase 2, 2 datos,

Clase 3, 7 datos,

Clase 4, 19 datos,

clase 5, 22 datos.

clase 6, 13 datos,

clase 7, 4 datos

clase 8, 3 datos

Algunos suelen manejar las frecuencias relativas que no es más que cada numero de datos dividido entre el numero total de muestras, en este caso, 73.

image

tabla de tomada de: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

Así tenemos nuestra tabla de resultados, sin embargo se ve mejor la distribución en forma gráfica, al menos para mi.

Si lo graficamos en MATLAB con la siguiente instrucción.

[x,y]=hist(r,8)   Nos entrega los siguientes datos

 

Frecuencia de datos 4 1 8 18 21 11 7 3
Marca de frecuencia 4.2181 5.0344 5.8506 6.6669 7.4831 8.2994 9.1156 9.9319

image

Si bien los resultados varían un poco debido al método empleado por el algoritmo en matlab, (quizá no usa el rango extendido), la distribución es muy similar a la calculada. Claramente se ve que hay más valores concentrados al rededor de 7

 

Basado en: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

Distribuciones (¿continuas o discretas?)… Tipos de datos

Para aplicar algunos métodos probabilísticos se nos pide que sepamos primero, ¿como es la distribución de datos. Pero para encontrar la distribución de datos hay que saber primero, ¿Qué tipos de datos estamos manejando?

Hay 4 tipos de datos que se dividen en cuantitativos y cualitativos

Cuantitativos

Continuos: Pueden tomar cualquier valor ya sea entero o decimal dentro de un rango. Por ejemplo, medir el grosor de los cabellos de 100 personas. Los valores pueden variar infinitamente dentro de un rango en valores. por ejemplo 0.005, 0.055,0.05555,0.0054,0.0049, etc. Esos son datos continuos.

Discretos: Los datos discretos varían a pasos bien establecidos. Por ejemplo, cuantos discos defectuosos hay en una carga de cajas de discos piratas. Los valores siempre incrementarán en unidades ya que no podemos encontrar 1.5 discos defectuosos, es decir, o el disco esta defectuoso o no o está. Esos son los datos discretos que varían con incrementos determinados. y generalmente no aceptan puntos fraccionarios.

Cualitativos

Nominales: Son datos asignados por categorías, por ejemplo género (hombre o mujer), carrera, material de construcción, etc. No se les puede asignar un valor numérico por ejemplo, no se puede decir es 0.8 hombre. Lo que se puede hacer es asignarles una categoría y entonces contar cuantos de ellos hay en cada categoría. Así obtenemos un número.

Jerarquizados: Son datos cualitativos que se refieren a evaluaciones subjetivas, por ejemplo, primer lugar, segundo lugar, etc.  al igual que los nominales se pueden agrupar y contar por categoría.

Tanto los datos nominales o jerarquerizados al categorizarlos y contarlos se convierten en datos discretos.

 

 

Ahora veremos un concepto que es distribución de frecuencias, es decir como se repiten los datos si tomamos varias muestras de un evento.

 

 

 

 

Basado en: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#