miércoles, 13 de noviembre de 2013

Calculo del tamaño de la muestra


A la hora de determinar el tamaño que debe alcanzar una muestra, hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño muestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros.

Error Muestral, de estimación o estándar. Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían muestra a muestra). Varía según se calcule al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.

·         Concepto de Población:
Es un conjunto finito o infinito de elementos con características comunes para los cuales serán extensivas las conclusiones de la investigación. Esta queda delimitada por el problema y por los objetivos del estudio.

Población finita: Cuando es (o puede ser) posible enumerar físicamente los elementos que pertenecen a una población, se dice que la población es finita. Ejemplo: Los libros de una biblioteca universitaria constituyen una población finita. (Los libros se pueden contar.)

Población infinita: Cuando los elementos de una población son ilimitados, la población es infinita. Ejemplo: La población de todas las personas que podrían tomar aspirina, y la población de todos los focos de 40 watts que serán producidos en México, son infinitas.

Tamaño de la muestra para la población infinita o desconocida:

Tamaño de la muestra para la población finita y conocida:


Ejemplo de Cálculo del Tamaño de la Muestra 

Ejemplos:

Tamaño de la muestra para población finita cuando los datos son cualitativos, es decir para análisis de fenómenos sociales o cuando se utilizan escalas nominales para verificar la ausencia o presencia del fenómeno a estudiar:
De una población de 1 176 adolescentes, de la ciudad de Pachuca de Soto, se pretende conocer la aceptación de los programas humorísticos televisivos. Se desea tomar una muestra para saber la cantidad de adolescentes a entrevistar y con ello tener una información adecuada, con un error standard de 1.5% al 90% de confiabilidad.


Ejemplo:

Cuando conocemos el tamaño de la población, la muestra necesaria es más pequeña y su tamaño se determina mediante la fórmula:



Naturalmente también en estos casos hay que recordar que para poder extrapolar los resultados a la población, la muestra debe ser representativa, y estamos de nuevo con el problema del muestreo aleatorio.
Por ejemplo: deseamos hacer un sondeo de opiniones en un centro escolar que tiene 600 alumnos. En este caso N = 600; es el tamaño de la población que ya conocemos. Nuestro nivel de confianza va a ser del 95%, por lo tanto z = 1.96. Y como no queremos un error mayor del 3%, tenemos que e = .03. A falta de otros datos y para mayor seguridad suponemos que pq = (.50)(.50) = .25. La muestra necesaria será:


Cuando la población es grande (más de 30.000 sujetos) esta fórmula no aporta mucho y puede utilizarse la fórmula para poblaciones infinitas [1] que es más sencilla.
También podemos ir directamente a alguno de los programas de Internet, nos basta introducir el nivel de confianza (95%) y el tamaño de la población.

Al aumentar el tamaño de la población no aumenta proporcionalmente el tamaño necesario de la muestra, y llega un momento en que las dos fórmulas dan prácticamente los mismos resultados. Podemos verlo en la tabla 2; aplicamos la fórmula para distintos valores de N (tamaño conocido de la población) y cuando las muestras son grandes llegamos a las mismas o parecidas cifras que vimos antes para poblaciones infinitas

Cuando la población es muy pequeña y el error tolerado muy pequeño, prácticamente hay que tomar a toda o casi toda la población. En la tabla 3 tenemos el tamaño de muestra para poblaciones entre 25 y 40 sujetos (40 puede ser el tamaño típico de muchas clases) a partir de la fórmula [9]. El nivel de confianza es α = .05.

Con un error tolerado del 5% y poblaciones entre 25 y 15 sujetos la muestra debe ser N–1 (podemos prescindir de un sujeto) y con menos de 15 sujetos debemos incluir a toda la población. En determinados casos el número real de respuestas en una clase (ejemplo típico) es muy bajo y podemos preguntarnos en qué medida los resultados (por ejemplo de una escuela, de una clase) son fiables.

Ejemplo:


En este caso, por “tamaño de la muestra” se entiende el número de niños que deben incluirse en la encuesta.

Etapa 1: Cálculo del tamaño de la muestra de base

El tamaño adecuado de la muestra para una encuesta relativa a la población está determinado en gran medida por tres factores:

i)                    prevalencia estimada de la variable considerada (en este caso, la malnutrición crónica);
ii)                  nivel deseado de fiabilidad;
iii)                y margen de error aceptable.

El tamaño de la muestra para un diseño de encuesta basado en una muestra aleatoria simple, puede calcularse mediante la siguiente fórmula.
Fórmula:

n=
 x p(1-p)



Descripción:
n = tamaño de la muestra requerido
t = nivel de fiabilidad de 95% (valor estándar de 1,96)
p = prevalencia estimada de la malnutrición en la zona del proyecto
m = margen de error de 5% (valor estándar de 0,05)

Ejemplo

En el proyecto de Al Haouz en Marruecos, se ha calculado que cerca del 30% (0,3) de los niños de la zona del proyecto padecen de malnutrición crónica. Este dato se basa en estadísticas nacionales sobre malnutrición en las zonas rurales. Utilizando los valores estándar indicados supra se efectúa el cálculo siguiente:
Cálculo:

Calcul:                                                                  
n=
1.96² x .3(1-.3)

.05²
n =
3.8416 x .21

.0025
n =
.8068

.0025
=
322.72 ~ 323




Etapa 2: Efecto de diseño

La encuesta antropométrica está diseñada como una muestra por conglomerados (una selección representativa de aldeas) y no como una muestra aleatoria simple. A fin de corregir la diferencia en el diseño, el tamaño de la muestra se multiplica por el efecto de diseño (D).

Por lo general se presupone un efecto de diseño igual a 2 para las encuestas nutricionales que utilizan una metodología de muestreo por conglomerados.


Ejemplo
n x D = 323 x 2 = 646


Etapa 3: Imprevistos

El tamaño de la muestra se aumenta en un 5% para hacer frente a imprevistos como la ausencia de respuesta o errores de registro.

Ejemplo

n + 5% = 646 x 1,05 = 678,3 ˜ 678


Etapa 4: Distribución de las observaciones

Por último, el resultado del cálculo se redondea hasta el número más próximo que mejor corresponda al número de conglomerados (30 aldeas) objeto de la encuesta.

En las encuestas por conglomerados del PAI (Programa Ampliado de Inmunización) de la OMS se suele fijar un número de 30 conglomerados. Desde un punto de vista estadístico no es necesario mantener exactamente 30 conglomerados y este número puede ajustarse si existen motivos que obliguen a hacerlo.

Ejemplo

Tamaño de la muestra final: N = 690 niños
Posteriormente, el tamaño de la muestra final (N) se divide por el número de conglomerados (30) a fin de determinar el número de observaciones por conglomerado.

Ejemplo
N ÷ Nº de conglomerados = 690 ÷ 30 = 23 niños por aldea



Norma General: Tamaño uniforme de las muestras para las encuestas nutricionales.

En el cuadro que figura a continuación se indica el tamaño recomendado de las muestras para los diversos niveles estimados de malnutrición, con inclusión de los valores estándar para el nivel de fiabilidad y el margen de error.
El tamaño de la muestra final comprende un porcentaje para imprevistos y se redondea hasta corresponder a una encuesta de 30 conglomerados.


P
(porcentaje estimado de malnutrición)
n
(tamaño de la muestra de base)
n x D
(n x efecto de diseño)
N
(tamaño de la muestra final)
0.2 (20%)
246
492
540
0.25 (25%)
288
576
600
0.3 (30%)
323
646
690
0.35 (35%)
350
700
720
0.4 (40%)
369
738
750
0.45 (45%)
380
760
780
0.5 (50%)
384
768
810
Nota: En caso de que no sea posible hallar una prevalencia estimada de malnutrición para la zona del proyecto, se recomienda fijar en 810 el tamaño de la muestra.




Observaciones sobre el tamaño de la muestra

1   1)    Recordamos lo dicho al principio: no conviene olvidar que un tamaño adecuado de la muestra no es suficiente para poder extrapolar los resultados; además es necesario que la muestra sea representativa de la población. No debemos preguntarnos solamente cuántos sujetos necesitamos, sino cómo son seleccionados (cuántos y quiénes, son las dos cuestiones importantes para extrapolar los resultados).

Cuando no es posible seleccionar una muestra aleatoria (trabajamos, por ejemplo, con grupos hechos) hay que tenerlo en cuenta en la interpretación de los resultados. Siempre podemos preguntarnos ¿A qué población puede representar esta muestra?

2   2)    Una muestra grande, o mayor de lo que realmente necesitamos según las fórmulas adecuadas, no es mejor necesariamente ni garantiza por sí sola el poder extrapolar los resultados con un menor margen de error. Una muestra grande puede estar sesgada, a veces precisamente por ser una muestra muy grande, con determinados segmentos de la población poco representados o representados en exceso.

3   3)    Si nos encontramos de hecho con una muestra grande, podemos intentar dividirla en submuestras según características importantes y verificar en qué medida estas submuestras están representadas en la proporción que les corresponde (tendríamos en este caso un muestreo por cuotas). Podemos también reducir el tamaño de alguna submuestra, o eliminarla y no tenerla en cuenta… en cualquier caso debemos examinar y describir bien la muestra para interpretar los resultados.


4     4)    Ya hemos visto que una muestra puede ser adecuada para extrapolar los resultados a toda una población general previamente definida, pero cada submuestra (varones y mujeres, subgrupos de edades, cursos, etc.) puede no tener el tamaño suficiente para extrapolar los resultados a cada subpoblación con el mismo margen de error. Ya hemos indicado la fórmula adecuada para verificar estos márgenes de error.

El margen de error en las submuestras será mayor que en la población, pero también puede ser una información útil y así se ve con frecuencia en los resultados publicados de encuestas sociológicas, con un margen de error al extrapolar a toda la población y otros márgenes de error mayores al extrapolar a las subpoblaciones.

Formulario:
 
 N = tamaño de la población
Y = valor de la variable (por lo general es = 1)
Z= Varianza tipificada (típicas 95%, Z = 2; 99%, Z = 3)
  ***Un nivel de confianza del 95% (también lo expresamos así: α = .05) corresponde a z = 1.96 sigmas o errores típicos; z = 2 (dos sigmas) corresponde a un 95.5% (aproximadamente, α= .045).
Con z = 2.57 el nivel de confianza sube al 99% (nos equivocaríamos una vez de cada 100), pero como aumenta el numerador aumenta el cociente… que es N, y harán falta más sujetos (y más trabajo y más gastos). 

S= Desviación Standard (típica 15 %)
e = error muestral (típico 5 % =0,05)
p = proporción de elementos que presentan la característica. (típico 50% = 0,5)
q = proporción de elementos que no presentan la característica. (típico 50% = 0,5)
n = Tamaño de la muestra

Media poblacional
Población finita:
n = (N . Z² . S²) / (N. e + Z² . S² )

Población infinita:
n = (Z² . S²) / e

Proporción poblacional
Población finita:
n = (N . Z² . p. q) / ((N-1). e + Z² . p. q )

Población infinita:
n = (Z² . p. q ) / e

No hay comentarios: