ENES Juriquilla Examen_03
Estimación e hipótesis, prueba t
Lic. Tecnología 2023-I
library(tidyverse)
library(rstatix)
##
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
##
## filter
Problema 1
¿Podemos concluir que la edad promedio de muerte en los pacientes con
drepanocitosis homocigota es menor a los 30 años? Una muestra de 50
pacientes se lista en EXR_C07_S02_15.csv
con las edades en
años, de fallecimiento. Sea alpha = 0.05. Explique qué otras
suposiciones fueron necesarias para estimar el resultado. Grafique sus
datos y explique su hipótesis y su respuesta.
Solución:
El promedio de edad es $ < 30$, entonces la hipótesis nula \(H_0 \geq 30\) para que la hipotesis
alternativa \(H_A < 30\).
# Problema 1
<- read_csv("~/Dropbox/GitHub/ProbEstad/DataSets/ch07_all/EXR_C07_S02_15.csv", show_col_types = FALSE)
DH_age DH_age
## # A tibble: 50 × 1
## Age
## <dbl>
## 1 15.5
## 2 2
## 3 45.1
## 4 1.7
## 5 0.8
## 6 1.1
## 7 18.2
## 8 9.7
## 9 28.1
## 10 18.2
## # … with 40 more rows
%>% ggplot(aes(x = '', y = Age)) +
DH_age geom_boxplot() +
geom_jitter(width = 0.02, alpha = 0.6, color = "red")
# pregunta si el promedio de edad es menor a los 30 años.
# suponemos entonces H0 que la edad es mayor a los 30 años y la Ha es que es menor
t.test(DH_age, alternative = "less", mu = 30, paired = FALSE, conf.level = 0.95)
##
## One Sample t-test
##
## data: DH_age
## t = -4.183, df = 49, p-value = 5.933e-05
## alternative hypothesis: true mean is less than 30
## 95 percent confidence interval:
## -Inf 23.68444
## sample estimates:
## mean of x
## 19.46
Conclusión: Este nivel de \(p\) nos permite tomar la hipótesis alternativa que acepta que el promedio de edad es menor a los 30 años, y es una respuesta significativa.
Problema 2
¿Podemos concluir que pacientes con hipertensión primaria (PH), en
promedio, tienen niveles mayores de colesterol total que los pacientes
no hipertensos (NT)? Esta fue una de las preguntas que hizo en su
investigación Rossi et al. en la tabla contenida en
EXR_C07_S03_04.csv
se muestran las medidas de colesterol
total \((mg/dl)\) de 133 pacientes con
PH y 41 pacientes NT. A partir de estos datos ¿se puede concluir que los
pacientes PH tienen mayores niveles de colesterol total que los NT? Use
\(\alpha = 0.05\). Haga gráficas de
caja y explique su hipótesis y su respuesta.
Solución
La hipótesis nula es que los pacientes con \(H_0: PH_{col} \leq NT_{col}\) por lo que la
hipótesis alternativa es \(H_A: PH_{col} >
NT_{col}\)
# pacientes con PH tienen concentración de colesterol más alta que NT, al 95%
<- read_csv("~/Dropbox/GitHub/ProbEstad/DataSets/ch07_all/EXR_C07_S03_04.csv", show_col_types = FALSE)
colest colest
## # A tibble: 174 × 2
## Length Group
## <dbl> <dbl>
## 1 207 1
## 2 172 1
## 3 191 1
## 4 221 1
## 5 203 1
## 6 241 1
## 7 208 1
## 8 199 1
## 9 185 1
## 10 235 1
## # … with 164 more rows
<- colest %>%
colest_new mutate( Group = case_when (
== 1 ~ "PH",
Group == 2 ~ "NT" ))
Group
<- colest_new %>% mutate( Group = Group %>% fct_relevel("NT", "PH"))
colest_new
# boxplot(Length ~ Group, data = colest_new)
%>% ggplot(aes(x = Group, y = Length)) +
colest_new geom_boxplot() +
geom_jitter(width = 0.02, alpha = 0.6, aes(color = Group))
t.test(Length ~ Group, paired = FALSE, alternative = "less", data = colest_new)
##
## Welch Two Sample t-test
##
## data: Length by Group
## t = -3.7323, df = 61.178, p-value = 0.0002091
## alternative hypothesis: true difference in means between group NT and group PH is less than 0
## 95 percent confidence interval:
## -Inf -11.88959
## sample estimates:
## mean in group NT mean in group PH
## 193.1951 214.7143
%>% t_test(Length ~ Group, p.adjust.method = "holm", paired = FALSE, alternative = "less") colest_new
## # A tibble: 1 × 8
## .y. group1 group2 n1 n2 statistic df p
## * <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl>
## 1 Length NT PH 41 133 -3.73 61.2 0.000209
Conclusión: Se puede concluír que los pacientes normotensos efectivametne tienen menores concetraciones de colesterol en suero.
Problema 3
Montner et al. condujeron estudios para probar los efectos de la
hiperhidratación inducida por glicerol (GEH) en ciclismo de alta
resistencia. Estudiaron a 11 sujetos, edades 22-40 años, que
regularmente practicaban ciclismo por 75 millas a la semana. En el
archivo REV_C07_41.csv
se listan los volúmenes de orina
(ml) iniciales seguidos de aquellos con consumo de agua con glicerol.
Explique sus suposiciones y conclusiones, construya gráficas y explique
el modelo que decidió usar.
Solución: la hipótesis nula \(H_0: Vol_{gly}
\geq Vol_{watter}\) resultando en una hipótesis alternativa que
el volumen de orina es
# volúmenes de orina (ml) iniciales seguidos de aquellos con consumo
# de agua con glicerol
<- read_csv("~/Dropbox/GitHub/ProbEstad/DataSets/ch07_all/REV_C07_41.csv", show_col_types = FALSE)
GEH
<- GEH %>%
GEH_long pivot_longer(cols = c("Control", "Glycerol") , names_to = "Treatment", values_to = "Volume_GEH")
%>% ggplot(aes(x = Treatment, y = Volume_GEH)) +
GEH_long geom_boxplot() +
geom_jitter(width = 0.03, alpha = 0.5, aes(color = Treatment))
# null hypotesis is that the Glycerol treatment results in larger or equal urine volume
t.test(Volume_GEH ~ Treatment, paired = TRUE, alternative = "greater", data = GEH_long)
##
## Paired t-test
##
## data: Volume_GEH by Treatment
## t = 7.0883, df = 10, p-value = 1.671e-05
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## 495.9772 Inf
## sample estimates:
## mean difference
## 666.3636
Conclusión: Dado el valor de \(p = 0.000\) podemos concluir que la hipótesis alternativa es que los ciclistas en estado control (es decir consumo de agua sola) resultla en un volumen de orina mayor, es decir una mayor pérdida de agua.
Problema 4
Muestras aleatorias simples de dos líneas genéticas de ratones se
usaron en un experimento que resultó en las siguientes medidas de
niveles de glucosa en suero, después de una experiencia
traumática:
Línea A: 54, 99, 105, 46, 70, 87, 55, 58, 139, 91
Línea B: 93, 91, 93, 150, 80, 104, 128, 83, 88, 95, 94, 97
¿Estos datos dan suficiente evidencia para concluir que la varianza de
los datos de los ratones de la línea A es mayor a la varianza de los
datos de los ratones de la línea B? Sea \(\alpha = 0.05\). Explique su hipótesis nula
y todas sus repuestas.
Respuesta la hipótesis nula es \(H_0:
\frac{s^2_1}{s^2_2} < 1\) para varianzas diferentes tenemos
que aceptar la hipótesis alternativa \(H_a:
\frac{s^2_1}{s^2_2} \geq 1\)
0
# Usando dos líneas de ratones, se midió niveles de glucosa en suero, después de
# una experiencia traumática
<- c(54, 99, 105, 46, 70, 87, 55, 58, 139, 91)
LineA <- c(93, 91, 93, 150, 80, 104, 128, 83, 88, 95, 94, 97)
LineB
var.test(LineA, LineB, ratio = 1, alternative = "greater", conf.level = .95)
##
## F test to compare two variances
##
## data: LineA and LineB
## F = 2.1417, num df = 9, denom df = 11, p-value = 0.1168
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
## 0.7394956 Inf
## sample estimates:
## ratio of variances
## 2.141744
Conclusión: La varianza de la linea A no es mayor que la varianza de la linea B