ENES Juriquilla Examen_03

Estimación e hipótesis, prueba t

Lic. Tecnología 2023-I

library(tidyverse)
library(rstatix)
## 
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
## 
##     filter

Problema 1

¿Podemos concluir que la edad promedio de muerte en los pacientes con drepanocitosis homocigota es menor a los 30 años? Una muestra de 50 pacientes se lista en EXR_C07_S02_15.csv con las edades en años, de fallecimiento. Sea alpha = 0.05. Explique qué otras suposiciones fueron necesarias para estimar el resultado. Grafique sus datos y explique su hipótesis y su respuesta.
Solución:
El promedio de edad es $ < 30$, entonces la hipótesis nula \(H_0 \geq 30\) para que la hipotesis alternativa \(H_A < 30\).

# Problema 1
DH_age <- read_csv("~/Dropbox/GitHub/ProbEstad/DataSets/ch07_all/EXR_C07_S02_15.csv", show_col_types = FALSE)
DH_age
## # A tibble: 50 × 1
##      Age
##    <dbl>
##  1  15.5
##  2   2  
##  3  45.1
##  4   1.7
##  5   0.8
##  6   1.1
##  7  18.2
##  8   9.7
##  9  28.1
## 10  18.2
## # … with 40 more rows
DH_age %>% ggplot(aes(x = '', y = Age)) +
  geom_boxplot() +
  geom_jitter(width = 0.02, alpha = 0.6, color = "red")

# pregunta si el promedio de edad es menor a los 30 años.
# suponemos entonces H0 que la edad es mayor a los 30 años y la Ha es que es menor
t.test(DH_age, alternative = "less", mu = 30, paired = FALSE, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  DH_age
## t = -4.183, df = 49, p-value = 5.933e-05
## alternative hypothesis: true mean is less than 30
## 95 percent confidence interval:
##      -Inf 23.68444
## sample estimates:
## mean of x 
##     19.46

Conclusión: Este nivel de \(p\) nos permite tomar la hipótesis alternativa que acepta que el promedio de edad es menor a los 30 años, y es una respuesta significativa.

Problema 2

¿Podemos concluir que pacientes con hipertensión primaria (PH), en promedio, tienen niveles mayores de colesterol total que los pacientes no hipertensos (NT)? Esta fue una de las preguntas que hizo en su investigación Rossi et al. en la tabla contenida en EXR_C07_S03_04.csv se muestran las medidas de colesterol total \((mg/dl)\) de 133 pacientes con PH y 41 pacientes NT. A partir de estos datos ¿se puede concluir que los pacientes PH tienen mayores niveles de colesterol total que los NT? Use \(\alpha = 0.05\). Haga gráficas de caja y explique su hipótesis y su respuesta.

Solución
La hipótesis nula es que los pacientes con \(H_0: PH_{col} \leq NT_{col}\) por lo que la hipótesis alternativa es \(H_A: PH_{col} > NT_{col}\)

# pacientes con PH tienen concentración de colesterol más alta que NT, al 95%
colest <- read_csv("~/Dropbox/GitHub/ProbEstad/DataSets/ch07_all/EXR_C07_S03_04.csv", show_col_types = FALSE)
colest
## # A tibble: 174 × 2
##    Length Group
##     <dbl> <dbl>
##  1    207     1
##  2    172     1
##  3    191     1
##  4    221     1
##  5    203     1
##  6    241     1
##  7    208     1
##  8    199     1
##  9    185     1
## 10    235     1
## # … with 164 more rows
colest_new <- colest %>% 
  mutate( Group = case_when (
    Group == 1 ~ "PH",
    Group == 2 ~ "NT" ))

colest_new <- colest_new %>% mutate( Group = Group %>% fct_relevel("NT", "PH"))

# boxplot(Length ~ Group, data = colest_new)
colest_new %>% ggplot(aes(x = Group, y = Length)) +
  geom_boxplot() +
  geom_jitter(width = 0.02, alpha = 0.6, aes(color = Group))

t.test(Length ~ Group, paired = FALSE, alternative = "less", data = colest_new)
## 
##  Welch Two Sample t-test
## 
## data:  Length by Group
## t = -3.7323, df = 61.178, p-value = 0.0002091
## alternative hypothesis: true difference in means between group NT and group PH is less than 0
## 95 percent confidence interval:
##       -Inf -11.88959
## sample estimates:
## mean in group NT mean in group PH 
##         193.1951         214.7143
colest_new %>% t_test(Length ~ Group, p.adjust.method = "holm", paired = FALSE, alternative = "less")
## # A tibble: 1 × 8
##   .y.    group1 group2    n1    n2 statistic    df        p
## * <chr>  <chr>  <chr>  <int> <int>     <dbl> <dbl>    <dbl>
## 1 Length NT     PH        41   133     -3.73  61.2 0.000209

Conclusión: Se puede concluír que los pacientes normotensos efectivametne tienen menores concetraciones de colesterol en suero.

Problema 3

Montner et al. condujeron estudios para probar los efectos de la hiperhidratación inducida por glicerol (GEH) en ciclismo de alta resistencia. Estudiaron a 11 sujetos, edades 22-40 años, que regularmente practicaban ciclismo por 75 millas a la semana. En el archivo REV_C07_41.csv se listan los volúmenes de orina (ml) iniciales seguidos de aquellos con consumo de agua con glicerol. Explique sus suposiciones y conclusiones, construya gráficas y explique el modelo que decidió usar.
Solución: la hipótesis nula \(H_0: Vol_{gly} \geq Vol_{watter}\) resultando en una hipótesis alternativa que el volumen de orina es

# volúmenes de orina (ml) iniciales seguidos de aquellos con consumo 
# de agua con glicerol
GEH <- read_csv("~/Dropbox/GitHub/ProbEstad/DataSets/ch07_all/REV_C07_41.csv", show_col_types = FALSE)

GEH_long <- GEH %>%
  pivot_longer(cols = c("Control", "Glycerol") , names_to = "Treatment", values_to = "Volume_GEH")

GEH_long %>% ggplot(aes(x = Treatment, y = Volume_GEH)) +
  geom_boxplot() +
  geom_jitter(width = 0.03, alpha = 0.5, aes(color = Treatment))

# null hypotesis is that the Glycerol treatment results in larger or equal urine volume
t.test(Volume_GEH ~ Treatment, paired = TRUE, alternative = "greater", data = GEH_long)
## 
##  Paired t-test
## 
## data:  Volume_GEH by Treatment
## t = 7.0883, df = 10, p-value = 1.671e-05
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  495.9772      Inf
## sample estimates:
## mean difference 
##        666.3636

Conclusión: Dado el valor de \(p = 0.000\) podemos concluir que la hipótesis alternativa es que los ciclistas en estado control (es decir consumo de agua sola) resultla en un volumen de orina mayor, es decir una mayor pérdida de agua.

Problema 4

Muestras aleatorias simples de dos líneas genéticas de ratones se usaron en un experimento que resultó en las siguientes medidas de niveles de glucosa en suero, después de una experiencia traumática:
Línea A: 54, 99, 105, 46, 70, 87, 55, 58, 139, 91
Línea B: 93, 91, 93, 150, 80, 104, 128, 83, 88, 95, 94, 97
¿Estos datos dan suficiente evidencia para concluir que la varianza de los datos de los ratones de la línea A es mayor a la varianza de los datos de los ratones de la línea B? Sea \(\alpha = 0.05\). Explique su hipótesis nula y todas sus repuestas.
Respuesta la hipótesis nula es \(H_0: \frac{s^2_1}{s^2_2} < 1\) para varianzas diferentes tenemos que aceptar la hipótesis alternativa \(H_a: \frac{s^2_1}{s^2_2} \geq 1\)
0

# Usando dos líneas de ratones, se midió niveles de glucosa en suero, después de 
# una experiencia traumática

LineA <- c(54, 99, 105, 46, 70, 87, 55, 58, 139, 91)
LineB <- c(93, 91, 93, 150, 80, 104, 128, 83, 88, 95, 94, 97)

var.test(LineA, LineB, ratio = 1, alternative = "greater", conf.level = .95)
## 
##  F test to compare two variances
## 
## data:  LineA and LineB
## F = 2.1417, num df = 9, denom df = 11, p-value = 0.1168
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
##  0.7394956       Inf
## sample estimates:
## ratio of variances 
##           2.141744

Conclusión: La varianza de la linea A no es mayor que la varianza de la linea B