lunes, 22 de noviembre de 2010

Distribución de datos..II

Para complicarnos más las cosas al proceso siguiente también le llaman hacer un histograma o distribución de frecuencias, entro otros.

Para el caso de datos continuos debemos seguir los siguientes pasos:

  • Paso 1

Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.

  • Paso 2

Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.

  • Paso 3

Establecer la longitud de clase: es igual al rango dividido por el número de clases.

  • Paso 4

Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales.

  • Paso 5

Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.

Momento… vamos a hacerlo con un ejemplo para mayor claridad

Supongamos que tenemos la siguiente lista de datos:

5.26 8.96 5.64 9.02 7.52 6.25 8.52 7.12
6.9 7.44 10.08 8.65 6.68 7.63 7.23 7.1
8.64 8.82 3.81 6.72 7.98 6.73 7.63 4
5.47 5.88 6.81 8.26 10.27 7.6 6.95  
6.07 7.62 7.49 7.9 7.64 8.14 7.78  
6.48 5.67 4.56 6.65 7.17 6.91 10.34  
8.72 9 7.16 7.25 8.06 7.82 6.65  
9.16 5.6 8.61 6.26 6.66 6.76 6.86  
5.85 7.64 3.86 6.43 8.26 7.75 7.74  
8.51 8.82 6.78 7.71 6.67 7.36 6.67  

Son datos del tipo continuo y queremos descubrir su distribución.

Paso 1 Determinando el rango de valores

Encontramos el mayor y el menor valor de toda la lista, en este caso 10.34 es el máximo y 3.81 es el valor mínimo.

Nuestro rango de valores R= 10.34-3.81=6.53.

Paso 2 OBTENER EL NÚMERO DE CLASES

La teoría dice que hay que establecer el numero de clases o intervalos (k), primero. En la práctica se eligen entre 5 a 15 intervalos o se calcula la raíz cuadrada de numero de muestras o la regla de sturges que no tengo idea de que sea.

Vamos a hacerlo con la raiz cuadrada.

Tenemos 73 muestras por lo que sqrt(73)=8.54, redondeamos al numero mayor 9

Usandola regla de sturges nos da 7.21 por lo que vamos a usar 8 intervalos.

Paso 3 ESTABLECIENDO LA LONGITUD O RANGO DE LA CLASE

Es muy simple, sólo dividimos el rango entre el número de clases.

6.53/8=0.81.

Así tendremos 8 clases con rango de 0.81 cada una.

Pero que pasa si usamos esta distribución y seguimos mediendo, Quizá alguno de los valores no entre en el rango, así que se decide usar un llamado,”rango extendido”. hacemos ese 0.81 un poco más grande, en este caso 0.9 y decimos que el rango extendido es:

R'=numero de clases * rango de clase= 8*0.8=7.2 pero este rango es mayor que el que estamos contemplando ahora así que hay que hay que distrinbuir esa difrencia a ambos lados del rango total.

7.2-6.53=0.67,                      0.67/2=0.335 lo cual restamos al primer valor y ese será nuestro inicio de clases. En este caso, el valor minimo es 3.81.

3.81-0.335=3.475

Ahora definiendo nuestros intervalos de clase tenemos:

3.457—4.375—5.275—6.175—7.075—7.975—8.875—9.775—10.675

O más definidos, son así.

(3.475,4.375], (4.375,5.275], (5.275,6.175], (6.175,7.075], (7.075,7.975], (7.975,8.875], (8.875,9.775], (9.775,10.675]

También´n suelen usar algo que se llama “MARCA DE CLASE” que no es más que la mitad de cada intervalo.

3.925, 4.825, 5.725, 6.625, 7.525, 8.425, 9.325, 10.225

Ahora sí, empezamos a contar que numeros y cuantas veces aparecen en cada rango de clases. y obtenermos los siguiente.

Clase 1: 3 datos   (3.81, 4, 3.86)

Clase 2, 2 datos,

Clase 3, 7 datos,

Clase 4, 19 datos,

clase 5, 22 datos.

clase 6, 13 datos,

clase 7, 4 datos

clase 8, 3 datos

Algunos suelen manejar las frecuencias relativas que no es más que cada numero de datos dividido entre el numero total de muestras, en este caso, 73.

image

tabla de tomada de: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

Así tenemos nuestra tabla de resultados, sin embargo se ve mejor la distribución en forma gráfica, al menos para mi.

Si lo graficamos en MATLAB con la siguiente instrucción.

[x,y]=hist(r,8)   Nos entrega los siguientes datos

 

Frecuencia de datos 4 1 8 18 21 11 7 3
Marca de frecuencia 4.2181 5.0344 5.8506 6.6669 7.4831 8.2994 9.1156 9.9319

image

Si bien los resultados varían un poco debido al método empleado por el algoritmo en matlab, (quizá no usa el rango extendido), la distribución es muy similar a la calculada. Claramente se ve que hay más valores concentrados al rededor de 7

 

Basado en: http://www.scribd.com/doc/4872010/DISTRIBUCIONES-DE-FRECUENCIAS#

No hay comentarios:

Publicar un comentario