Teoría del Muestreo

Distribucion de Muestras

La distribución de todos los valores posibles que puede tomar una “estadística”, construidos a partir de muestras del mismo tamaño de muestra extraídas al azar de la misma población, es llamado la distribución de muestreo de esa “estadística”, o distribución muestral.

Construcción de una distibución de muestras

Una distribución de muestreo se puede construir empíricamente a partir de un muestreo discreto, de una población finita, de la siguiente forma:
1. De una población finita de tamaño \(N\), se extraen todas las muestras posibles de tamaño \(n\).
2. La estadística de interés se estima en cada una de estas muestras.
3. En una lista se compilan todos los valores de la estadística obtenidos y todas las frecuencias de los valores obtenidos.

Teoría del Muestreo

Definición Se dice que las variables aleatorias \(X_1, X_2, \dots, X_n\) cuya función de densidad de probabilidad conjunta es \(f(x_1, x_2, \dots, x_n))\) y cuya funciones particulares de densidad son \(f_1(x_1), f_2(x_2), \dots, f_n(x_n)\) son independientes siempre y cuando
\[ f(x_1, x_2, \cdots, x_n) = f_1(x_1)f_2(x_2)\cdots f_n(x_n)\]

Características de una distribución muestral

Por lo general estámos interesados en estimar tres parámetros de una distribución de muestras: su promedio, su varianza, y su forma funcional. Representemos por \(f(x)\) la función de densidad de la variable aleatoria continua \(X\) y por \(n\) el tamaño de la muestra que se toma. Los valores muestrales (los elementos de la muestra) resultantes se designan mediante los símbolos \(x'_1, x'_2, \dots, x'_n\), Si se extrajera una segunda muestra de tamaño \(n\) entonces a los valores muestrales resultantes se le designa por \(x''_1, x''_2, \dots, x''_n\) y de igual forma para las muestras restantes. Estos valores los podemos representar en una tabla (como una medida práctica), en la que se estiman las medias de cada columna :

\[\begin{array}{cccc} x'_1 & x'_2 & \dots & x'_n \\ x''_1 & x''_2 & \dots & x''_n \\ x'''_1 & x'''_2 & \dots & x'''_n \\ \vdots & \vdots & \vdots & \vdots \\ \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_n \\ \end{array} \]

La distribución de muestras del promedio: promedio

El promedio del promedio de las muestras es:
\[\mu_\bar{x} = \frac{\sum{\bar{x_i}}}{N^n}\] Las propiedades de de la distribución del promedio de muestras de una distribución normal, supongamos que \(X\) (la población de dónde se hace el muestreo) tiene una distribución normal con media \(\mu\) y varianza \(\sigma^2/n\). Consideremos una muestra aleatoria de tamaño \(n\) de esta población normal, la media de dicha muestra,
\[ \bar{X}=\frac{1}{n}(X_1 + \dots +X_n) \] será una variable aleatoria por que las \(X_1, X_2, \dots,X_n\) correspondientes a las \(n\) pruebas de la muestra son variables aleatorias. Para un muestreo de una población de \(N\) sujetos que no presenta una distribución normal, para numerar todas las posibles muestras de \(n\) elementos sin reemplazo se enumeran por la combinatoria de \(_{N}C_{n} = \frac{N!}{n!(N-n)!}\) con fórmula para el promedio dada por \(\mu_{\bar{X}} = \frac{\sum{\bar{X_i}}}{_{N}C_{n}}\).

Puesto que muchas variables experimentales pueden tener distribuciones que no son normales, es importante saber si las propiedades del promedio de las medias del muestreo (y sus propiedades de la varianza) pueden ser descritas. Se puede destacar que sin importar cuál sea el tipo de distribución que tenga la población \(X\), siempre que existan su media y su varianza, la distribución de \(\bar{X}\) tenderá a la distribución normal cuando \(n \rightarrow \infty\) , que es lo que se conoce como el Teorema Central del Límite

Teorema central del límite: Si \(X\) es una variable aleatoria con media \(\mu\) y varianza \(\sigma^2\), la variable aleatoria \(Z=(\bar{X} - \mu)/(\sigma/\sqrt{n})\) tiene una distribución que se aproxima a la distribución normal tipificada cuando \(n \rightarrow \infty\).

La distribución de muestras del promedio: varianza

Y se sigue que: Si \(X\) tiene una distribución normal con media \(\mu\) y varianza \(\sigma^2\) y se toma una muestra aleatoria de tamaño \(n\), la media muestral \(\bar{X}\) tendrá una distribución normal con media \(\mu_{\bar{X}}\) y varianza \(\sigma^2/n\)

Es decir
\[ \sigma_{\bar{X}}^2 = \frac{1}{n^2}\sum_{i=1}^{n}\sigma^2 = \frac{\sigma^2}{n} \] La varianza del promedio de muestra
\[ {\sigma_{\bar{x}}^2} = \frac{\sum{(\bar{x}_i}-\mu_{\bar x})^2}{N^n} = \frac{\sigma^2}{n}\] La raíz cuadrada de la varinaza de la distribución de muestras, \(\sqrt{\sigma_{\bar{x}}^2} = \sigma_{\bar{x}}/\sqrt{n}\) es llamada el error estándar del promedio o simplemente el error estándar.

Cuando el muestreo se hace sin remplazo de una población finita, la distribución de \(\bar{X}\) tendrá una promedio \(\mu\) y varianza
\[ \sigma_{\bar{X}}^2 = \frac{\sigma^2}{n} \frac{N - n}{N -1} \] (con corrección para una población finita)

En resumen La distribución de muestreo para \(\bar{X}\) es:
1. El muestreo de una población distribuida normalmente con varianza de la población conocida:
a) \(\mu_{\bar{X}} = \mu\)
b) \(\sigma_{\bar{X}} = \sigma/\sqrt{n}\)
c) La distribución de \(\bar{X}\) es normal
2. El muestreo es de una población con una distribución no-normal con varinza conocida:
a) \(\mu_{\bar{X}} = \mu\)
b) \(\sigma_{\bar{X}} = \sigma/\sqrt{n}\) cuando \(n/N \leq .05\) y \(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N - n}{N -1}}\), de otra forma.
c) La distribución de \(\bar{X}\) es aproximadamente normal.

Ejemplos

  1. Supongamos que de una determinada población humana grande, la longitud del cráneo está distribuida en forma normal con promedio de 185.6 mm y desviación estándar de 12.7 mm. Cual es la probabilidad de que una muestra aleatoria de esta población de 10 sujetos resulte con un promedio de mayor a 190mm?
    Se usa la transformada a \(z = \frac{\bar{X}-\mu_{\bar{X}}}{\sigma/\sqrt{n}}\) y nos preguntan por la probabilidad de \(P(X \geq 190mm)\) para una distribución con \(\mu_{\bar{X}} = 185.6mm\) y una desviación estándar \(\sigma = 12.7mm\) que resulta en una desviación estándar muestral de \(\sigma_{\bar{X}} = \sigma/\sqrt{n}\)
# P(x >= 190)
pnorm(190, mean = 185.6, sd = (12.7/sqrt(10)), lower.tail = FALSE )
[1] 0.1366286
  1. Si el promedio y la desviación estándar para los valores de hierro en suero de hombres sanos es de \(120\) y \(15 \mu g\) por \(100ml\), respectivamente, cual es la probabilidad de que una muestra al azar de 50 hombres normales sanos resulte en un promedio entre 115 y 125 micro gramos por \(100ml\)?
    La respuesta es la diferencia de las probabilidades de \(X\) menor o igual a \(125\) y \(X\) menor o igual a \(115\), es decir \(P(X\leq 125) - P(X \leq 115)\) claro que con la distribución normal con la desviación estándar escalada a la muestra de \(n=50\).
pnorm(125, mean = 120, sd = (15/sqrt(50)), lower.tail = TRUE ) - pnorm(115, mean = 120, sd = (15/sqrt(50)), lower.tail = TRUE )
[1] 0.9815779

Distribución de la diferencia del promedio de dos muestras

Es común que en estudios de la ciencia médica se tenga interés en estimar la distribución de la diferencia del promedio de dos poblaciones distintas, un de ellas puede representar a un grupo de sujetos bajos un tratamiento y la otra población otro grupo de sujetos con un tratamiento distinto y que quiere estudiar si son iguales. Para construir las muestras se usa el mismo procedimiento que para la distribución del promedio de una muestra. Para una de las muestras, la muestra de la población 1, se tiene una población de \(N_1\) sujetos y todas las posibles muestras de tamaño \(n_1\) que están numeradas por la combinatoria \(_{N_1}C_{n_1}\), e igual para la población 2 de \(N_2\) y con muestras de tamaño \(n_2\), el posible número de nuestras sin reemplazo está dado por \(_{N_2}C_{n_2}\) y con fórmulas para sus promedios

\[ \mu_{\bar{X_{i}}} = \frac{\sum{\bar{X_i}}}{_{N_i}C_{n_i}},\] \[ \sigma_{\bar{X_i}}^2 = \frac{\sum{(\bar{X_i} - \mu_{\bar{X_i}})^2}}{_{N_i}C_{n_i}} \]

de dichas formulas podemos concluir que la diferencia de los promedios de las muestras es igual a \(\mu_1 - \mu_2\) y la varianza es \((\sigma_1^2/n_1) + (\sigma_2^2/n_2)\) de donde se deduce que el error estándar de la diferencia de las medias es \(\sqrt{(\sigma_1^2/n_1) + (\sigma_2^2/n_2)}\). Como la varianza general depende de las contribuciones de las dos muestras, la varianza muestral siempre se suma, es decir los errores parciales siempre se suman. Se supone que las distribuciones de las muestras son independientes.
La transformación a una normal tipificada para transformar a la variable \(z\) es
\[ z = \frac{ (\bar{X_1} - \bar{X_2}) - (\mu_1 - \mu_2) }{ \sqrt{ \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } } \]

Distribución de la proporción muestral

Para una proporción \(p\) medida de una población, se hace una estimación de las proporciones para una serie de muestras de tamaño \(n\) y se calcula el promedio de las proporciones (observadas) \(\hat{p}\). Si el número de muestras es grande la distribución de la proporciones de las muestras es aproximadamente normalmente distribuida por virtud del teorema del valor central y el promedio de las proporciones \(\mu_{\hat{p}}\) tenderá al valor de todas las posibles proporciones medidas de las muestras, la proporción \(p\) y la varianza de la distribución \(\sigma_{\hat{p}}^2\) será igual a \(pq/n\) con \(q = (1-p)\)y la transformada a \(z\) es

\[ z = \frac{ \hat{p} - p }{ \sqrt{ \frac{p(1-p)}{n} } } \]

Corrección para continuidad La aproximación a la normalidad es mejorada con un ajuste para que una distribución discreta se ajuste con una continua. Se usan las transformaciones a

\[ z_c = \frac{ \frac{x + .5}{n} - p}{ \sqrt{pq/n} }, \; para \; x < np \]
y

\[ z_c = \frac{ \frac{x - .5}{n} - p}{ \sqrt{pq/n} }, \; para \; x > np \]

Ejemplo Los resultados de una elección mostraron que determinado candidato obtuvo 46% de los votos. Determine la probabilidad de que en una encuesta realizada a (a) 200 y (b) 1000 personas elegidas al azar de la población de votantes se haya obtenido una mayoría de votos a favor de este candidato.

Respuesta Tenemos que para que tenga la mayoría es el caso de \(p > 0.5\), más “uno”, para una población con \(\hat{p} = .46\) con una muestra de \(200\) lo calculamos con \(\frac{1}{2n}\) que resulta en \(0.0025\) para \(n=200\) la probabilidad de una mayoría resulta en estimar \(P(x \geq .5025)\) y para b se estima la mayoría con .5 más uno en una muestra de 1000, es decir: \(\frac{1}{2(1000)}\) resulta en \(P(x \geq .5005)\).

# a) para P(x >= .5025)
pnorm(0.5025, mean = .46, sd = sqrt(.46*(1-.46)/200), lower.tail = FALSE)
[1] 0.113919
# b) para P(x >= .5005)
pnorm(0.5005, mean = .46, sd = sqrt(.46*(1-.46)/1000), lower.tail = FALSE)
[1] 0.005089609

Ejemplo Resultados de la Encuesta Nacional de Salud y Nutrición, 1999-2000 (NHANES), mostraron que el 31 por ciento de los adultos estadounidenses de edades entre 20-74 son obesos (obesidad está definida con un índice de masa corporal mayor o igual a 30.0). Designaremos a esta proporción de la población como \(p=.31\). Si de forma aleatoria seleccionamos a 150 individuos de esta población, cual es la probabilidad de que la proporción de la muestra que son obesos sea tan grande o más como .40?

Respuesta Nos piden \(\hat{p} \geq .40\) \(\hat{p} = .40\) y \(p=.31\) con \(\sigma_{\hat{p}}^2 = p(1-p)/n\)

pnorm(.40, mean = .31, sd = sqrt(.31*.69/150), lower.tail = FALSE)
[1] 0.008578587

Ejemplo En un estudio del cuidado médico en mujeres afroamericanas de bajos recursos, se encontró que solo el 51 por ciento de estas mujeres contaron con cuidados prenatales adecuados. Supongamos que para una población similar de mujeres afroamericanas de bajos recursos el 51 por ciento tuvieron cuidados médicos adecuados, si 200 mujeres de esta población son seleccionadas al azar, cual es la probabilidad de que menos del 45 por ciento haya recibido cuidado prenatal adecuado?

Respuesta Nos preguntan la probabilidad de \(P(\hat{p} \leq .45)\)

pnorm(.45, mean = .51, sd = sqrt(.51*.49/200), lower.tail = TRUE)
[1] 0.04481093

Distribución de la muestra para la diferencia entre las proporciones de dos muestras.

Las características de la distribución para la diferencia \(\hat{p_1} - \hat{p_2}\) se puede resumir de la siguiente forma; si muestras aleatorias independientes de tamaños \(n_1\) y \(n_2\), de variables (dicotómicas) son tomadas de dos poblaciones en donde las proporciones observadas de interés en cada población son \(p_1\) y \(p_2\), respectivamente, la distribución de la diferencia entre las proporciones, \(\hat{p_1}-\hat{p_2}\), es aproximadamente normal con promedio

\[ \mu_{\hat{p_1}-\hat{p_2}} = p_1 - p_2 \]

y varianza

\[ \sigma_{\hat{p_1}-\hat{p_2}}^2 = \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} \]

Para \(n_1\) y \(n_2\) grandes. Se consideran valores de \(n\) para el muestreo tales que \(n_1p_1, n_2p_2, n_1(1-p_1)\), y, \(n_2(1-p_2)\) sean todas mayores que 5. Para la construcción de la variable \(z\) se tiene la transformación siguiente

\[ z = \frac{(\hat{p_1}-\hat{p_2})-(p_1 - p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} \]

Si se hace un cálculo usando directamente la función pnorm de R, cómo puedo checar el resultado? Una posible forma es hacer la estimación de \(z\) siguiendo la fórmula indicada dependiendo del problema, y sabemos que pnorm(z) por definición nos estimará \(P(x \leq z)\), “cómo si fuera sacada directamente de una tabla”, y se puede usar esta probabilidad o \((1 - p)\) dependiendo lo que nos pregunte el problema, y este resultado debe checar con el que se estima directamente.

Ejemplos

  1. Supongamos que tenemos dos poblaciones de individuos, la primera (1) tiene una condición que se considera está relacionada con retraso mental, y la otra población (2) no experimenta dicha condición. La distribución de las calificaciones de inteligencia de ambas poblaciones se cree que están distribuidas de forma aproximadamente normal con desviación estándar de 20. Suponga que se toma una muestra de 15 individuos de cada población y se estima el promedio de las calificaciones de inteligencia iguales a \(X_1 = 92\) y \(X_2 = 105\). Si no hay una diferencia en las calificaciones verdaderas de las dos poblaciones, cuál es la probabilidad de observar una diferencia tan grande o mayor a \((X_1 - X_2)\)?
    Respuesta Si no hay diferencia entre los promedios de la población, la probabilidad de obtener la diferencia entre los promedios muestrales tan grande o más de 13, es:
pnorm((92 - 105), mean = 0, sd = sqrt(20^2/15 + 20^2/15), lower.tail = TRUE)
[1] 0.03752994
  1. Suponga que se ah establecido que que para cierto tipo de usuario la longitud promedio de una visita a domicilio por un enfermero de salud pública es de 45 minutos con una desviación estándar de 15 minutos, y para un segundo tipo de usuario el promedio de la visita domiciliaria es de 30 minutos de duración con desviación estándar de 20 minutos. Su un enfermero hace 35 visitas aleatorias a usuarios del primer tipo y 40 a usuarios del segundo tipo, cual es la probabilidad que el promedio de tiempo de visita domiciliaria entre los dos grupos sea de 20 o más minutos?
    Respuesta
pnorm(20, mean = (45 - 30), sd = sqrt(15^2/35 + 20^2/40), lower.tail = FALSE)
[1] 0.1086783
  1. La encuesta Nacional de Salud de 1999, liberada en el 2003, se reportó que el 28 por ciento de los sujetos que se auto-identificaron como blancos, dijeron haber experimentado dolor de espalda baja durante los tres meses anteriores a la encuesta. Entre los sujetos de origen Hispano, 21 por ciento reportaron dolor de espalda baja. Supongamos que .28 y .21 son las proporciones de que las respectivas razas reporten dolor de espalda baja en los Estado Unidos. Cuál es la probabilidad de que muestras aleatorias independientes de 100 sujetos tomados de cada población resulten en una diferencia \(\hat{p_1}-\hat{p_2}\) tan grande o más que .10?

Respuesta La diferencia de los promedios de la población \(\mu_{\hat{p_1} - \hat{p_2}} = .28 -.21 = .07\) y nos preguntan \(P(\hat{p_1}-\hat{p_2} \geq .01)\)

pnorm(.10, mean = (.28-.21), sd = sqrt((.28)*(.72)/100 + (.21)*(.79)/100), lower.tail = FALSE)
[1] 0.3103454