Estadística
La estadística es una ciencia formal que estudia la
recolección, análisis e interpretación de datos de
una muestra representativa, ya sea para ayudar en la toma
de decisiones o
para explicar condiciones regulares o irregulares de algún fenómeno o estudio
aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo, la estadística es más que eso, es decir, es la herramienta fundamental
que permite llevar a cabo el proceso relacionado con la investigación
científica.
La tendencia central se refiere al punto medio de una
distribución. Las medidas de tendencia central se conocen también como medidas
de posición.
Promedio
Aritmético.
Es el resultado de sumar
todos los valores que toma la variable en el conjunto y dividir esa cantidad
entre el número de elementos del conjunto. Por definición, cada conjunto tiene
sólo un promedio.
Mediana
La mediana de una
característica cuantitativa en un conjunto, es un valor tal que en el 50% de
los elementos la variable tiene un valor o igual a éste, y en el otro 50% el
valor de la misma variable es mayor o igual al mismo.
Moda.
Es el valor más frecuente de la
característica en el conjunto estudiado. Un conjunto de valores puede tener más
de una moda y puede no tenerla del todo. Por extensión, cuando una categoría de
un atributo es más frecuente que las otras, se le llama categoría modal.
Variable
Es cualquier carácter de los
elementos de una población susceptible de tomar valore numéricos.
Recorrido
El recorrido de una variable
queda determinado por la diferencia entre el valor máximo y el mínimo de esta
variable. También se denomina rango.
Población
Se define como cualquier
conjunto de personas, objetos, ideas o acontecimientos que se someten a la
observación estadística de una o varias características que comparten sus
elementos y que permiten diferenciarlos.
El significado que se da en
Estadística a la palabra “población” es más amplio que el utilizado en el
lenguaje habitual, referido exclusivamente a un conjunto de personas. Son
poblaciones por ejemplo, los diferentes automóviles que se encuentran en un
concesionario o las diferentes religiones de un país.
*Elementos o individuos de una población son cada uno de los
componentes de la población.
*Tamaño de la población es el número de elementos de una
población que puede ser finito o infinito.
Caracteres.
Los elementos de una
población tienen unos caracteres que se definen y, al mismo tiempo, los
diferencian de los demás. En consecuencia, un carácter es cada una de las propiedades, rasgos o cualidades que
poseen los elementos de una población.
Los caracteres proporcionan
información del elemento, sus datos. Dependiendo de que los datos de los
caracteres sean cuantitativos o cualitativos se clasifican en variables y
atributos respectivamente.
Variable: Es
cualquier carácter de los elementos e una población susceptible de tomar
valores numéricos.
}
Atributo: Es
cualquier carácter de los elementos de una población no susceptible de ser
medido numéricamente.
Modalidades: Son
las diferentes formas en que puede presentarse un atributo.
Muestra
Es la parte seleccionada de
una población en la que los elementos que la componen no tienen ninguna
característica esencial que los distinga de los restantes. Se utiliza cuando es
necesario disponer de una parte representativa de la población. Una muestra
puede elegirse inspirándose en el azar (muestreo aleatorio), o realizando una
selección de acuerdo con ciertas reglas fijadas con anterioridad (muestreo no
aleatorio)
La desviación estándar es
una medida del grado de dispersión de los datos con respecto al valor promedio.
Dicho de otra manera, la desviación estándar es simplemente el
"promedio" o variación esperada con respecto a la media aritmética.
MUESTREO
El muestreo es una herramienta de
la investigación científica, cuya función básica es determinar que parte de una
población debe examinarse, con la finalidad de hacer inferencias sobre dicha
población.
Muestreo probabilístico
Los métodos de muestreo probabilísticos
son aquellos que se basan en el principio de equiprobabilidad. Es decir,
aquellos en los que todos los individuos tienen la misma probabilidad de ser
elegidos para formar parte de una muestra y, consiguientemente, todas las
posibles muestras de tamaño n tienen la misma probabilidad de ser
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos
los siguientes tipos:
1.- Muestreo aleatorio simple:
El procedimiento empleado es el
siguiente: 1) se asigna un número a cada individuo de la población y 2) a
través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios,
números aleatorios generados con una calculadora u ordenador, etc.) se eligen
tantos sujetos como sea necesario para completar el tamaño de muestra
requerido.
Este
procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica
cuando la población que estamos manejando es muy grande.
Ejemplo: Se pretende determinar la prevalencia de Maedi en una explotación de 250 ovejas: para
ello se deben examinar 61 animales (se
supone una prevalencia del 30% y se desea una precisión del 10% para un nivel
de confianza del 95%): se obtienen 61 números entre el 1 y el 250 de una tabla
de números aleatorios y se sangran los animales correspondientes (en función
del número de crotal o según el orden por el que se hacen pasar por una manga).
Muestreo aleatorio
sistemático:
Este procedimiento exige, como el
anterior, numerar todos los elementos de la población, pero en lugar de extraer
n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i,
que es un número elegido al azar, y los elementos que integran la muestra son
los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman
los individuos de k en k, siendo k el resultado de dividir el tamaño de la
población entre el tamaño de la muestra: k= N/n. El número i que empleamos como
punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de
muestreo está en los casos en que se dan periodicidades en la población ya que
al elegir a los miembros de la muestra con una periodicidad constante (k)
podemos introducir una homogeneidad que no se da en la población. Imaginemos
que estamos seleccionando una muestra sobre listas de 10 individuos en los que
los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo
aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo
mujeres, no podría haber una representación de los dos sexos.
Ejemplo:
En el caso anterior debemos tomar uno de cada cuatro animales (250/61); en
vez de tomar 61 números aleatorios
tomamos sólo uno (entre el uno y el cuatro), por ejemplo el número 3, de modo que tomaremos la oveja
número 3, y a continuación cada cuarto animal
(la 7, la 11, la 15 y así sucesivamente hasta llegar a la 247).
Muestreo aleatorio
estratificado:
Trata de obviar las dificultades
que presentan los anteriores ya que simplifican los procesos y suelen reducir
el error muestral para un tamaño dado de la muestra. Consiste en considerar
categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad
respecto a alguna característica (se puede estratificar, por ejemplo, según la
profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que
se pretende con este tipo de muestreo es asegurarse de que todos los estratos
de interés estarán representados adecuadamente en la muestra. Cada estrato
funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo
aleatorio simple o el estratificado para elegir los elementos concretos que
formarán parte de la muestra. En ocasiones las dificultades que plantean son
demasiado grandes, pues exige un conocimiento detallado de la población.
(Tamaño geográfico, sexos, edades,...).
La distribución de la muestra en
función de los diferentes estratos se denomina afijación, y puede ser de
diferentes tipos:
Afijación Simple: A cada
estrato le corresponde igual número de elementos muéstrales.
Afijación Proporcional: La
distribución se hace de acuerdo con el peso (tamaño) de la población en cada
estrato.
Afijación Optima: Se
tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no
se suele conocer la desviación.
Ejemplo:
La probabilidad de que una oveja esté infectada de Maedi está directamente relacionada
con la edad. En el ejemplo anterior, la explotación tiene el 44% de los
animales de menos de 2 años, el 28% de 3-4 años, el 18% de 5-6 y el 10% son
animales de más de seis años: el 44% de
los 61 animales de la muestra (27 animales) se tomará al azar entre los de 1-2
años, el 28% entre los de 3-4 años y así sucesivamente (17, 11 y 6
animales de los otros tres grupos). Este
método evita que por casualidad (por azar) se tomen más individuos de un grupo que de los demás y
esto pueda condicionar el resultado.
Muestreo aleatorio por
conglomerados:
Los
métodos presentados hasta ahora están pensados para seleccionar directamente
los elementos de la población, es decir, que las unidades muéstrales son los
elementos de la población.
En
el muestreo por conglomerados la unidad muestral es un grupo de elementos de la
población que forman una unidad, a la que llamamos conglomerado. Las unidades
hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc., son conglomerados naturales. En otras ocasiones se pueden
utilizar conglomerados no naturales como, por ejemplo, las urnas electorales.
Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo
por áreas".
El
muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número
de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y
en investigar después todos los elementos pertenecientes a los conglomerados
elegidos.
Muestreo mixto.
Cuando
la población es compleja, cualquiera de los métodos descritos puede ser difícil
de aplicar, en estos casos se aplica un
muestreo mixto que combina dos o más de los anteriores sobre distintas unidades de la encuesta.
Ejemplo: se pretende determinar la
prevalencia de una determinada infección en una comarca: se dividen las
explotaciones en tres grupos en función de su tamaño y se realiza un muestreo estratificado, en las granjas que
forman la muestra se realiza un muestreo
sistemático para elegir los individuos que se analizarán.
Métodos de muestreo no
probabilísticos
A
veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no probabilísticos, aun siendo
conscientes de que no sirven para realizar generalizaciones (estimaciones
inferenciales sobre la población), pues no se tiene certeza de que la muestra
extraída sea representativa, ya que no todos los sujetos de la población tienen
la misma probabilidad de se elegidos. En general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la
muestra sea representativa.
En
algunas circunstancias los métodos estadísticos y epidemiológicos permiten
resolver los problemas de representatividad aun en situaciones de muestreo no
probabilístico, por ejemplo los estudios de caso-control, donde los casos no
son seleccionados aleatoriamente de la población.
Entre
los métodos de muestreo no probabilísticos más utilizados en investigación
encontramos:
Muestreo por cuotas:
También
denominado en ocasiones "accidental". Se asienta generalmente sobre
la base de un buen conocimiento de los estratos de la población y/o de los
individuos más "representativos" o "adecuados" para los
fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo
aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.
En
este tipo de muestreo se fijan unas "cuotas" que consisten en un
número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20
individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez
determinada la cuota se eligen los primeros que se encuentren que cumplan esas
características. Este método se utiliza mucho en las encuestas de opinión.
Muestreo intencional o de conveniencia:
Este
tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras
"representativas" mediante la inclusión en la muestra de grupos
supuestamente típicos. Es muy frecuente su utilización en sondeos
preelectorales de zonas que en anteriores votaciones han marcado tendencias de
voto.
También
puede ser que el investigador seleccione directa e intencionadamente los
individuos de la población. El caso más frecuente de este procedimiento el
utilizar como muestra los individuos a los que se tiene fácil acceso (los
profesores de universidad emplean con mucha frecuencia a sus propios alumnos).
Bola de nieve:
Se
localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y
así hasta conseguir una muestra suficiente. Este tipo se emplea muy
frecuentemente cuando se hacen estudios con poblaciones "marginales",
delincuentes, sectas, determinados tipos de enfermos, etc.
Muestreo Discrecional • A criterio del investigador los elementos son
elegidos sobre lo que él cree que pueden aportar al estudio. Ventajas e
inconvenientes de los distintos tipos de muestreo probabilístico.
Una variable independiente es
aquella cuyo valor no depende del de otra variable. La variable independiente
se representa en el eje de abscisas.
Son
las que el investigador escoge para establecer agrupaciones en el estudio,
clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables
independientes y que de no tenerse en cuenta adecuadamente pueden alterar los
resultados por medio de un sesgo.
Una variable dependiente es
aquella cuyos valores dependen de los que tomen otra variable. La variable
dependiente en una función se suele representar por y. La variable dependiente
se representa en el eje ordenadas. Son las variables de respuesta que se
observan en el estudio y que podrían estar influidas por los valores de las
variables independientes.
Gráfico de Barras Separadas: Se
utilizan para representar la distribución de frecuencias de variables
discretas. Cada categoría de la variable se representa por una barra, cuyo
largo indica la frecuencia de observaciones en dicha categoría. Todas las
barras deben ser de igual ancho y estar igualmente espaciadas
Gráfico sectorial: Son
una alternativa a los gráfico de barras separadas, es decir, se pueden utilizar
indistintamente estos dos tipos de gráficos, si la variable es discreta
Polígono de frecuencias: Este tipo de gráfico se utiliza para
representar la distribución de variables cuantitativas continuas o discretas
tabuladas en intervalos
Histogramas: Se utiliza con variables continuas o
agrupadas en intervalos, representando en el eje X los intervalos de clase y levantando
rectángulos de base la longitud de los distintos intervalos y de altura tal que
el área sea proporcional a las frecuencias representadas.
Gráfico
de Barras Agrupadas: Se utiliza para representar la distribución
de dos variables discretas, con el objeto de efectuar comparaciones con mayor
facilidad.
EJEMPLO: La siguiente
información corresponde al deporte favorito de los alumnos de 5º nivel de
cierto establecimiento educacional.
Gráfico
de Barras Divididas: Se utiliza para representar la distribución
de dos variables discretas, con el objeto de efectuar comparaciones con mayor
facilidad.