I Estadística Descriptiva

Introducción

En esta clase revisaremos el concepto de estadística descriptiva (Daniel W.W. 2009, Biostatistics, 9th). Y también tomaremos varias ideas y ejemplos del libro de Estadística con R de Verzani (Verzani, J. 2005, UsingR)

Una de las primeras cosas que es indispensable hacer al iniciar el sistema R es determinar cual es el directorio de trabajo y si se van a usar algunas librerías hay que cargarlas. En este caso usaremos una librería muy popular, tidyverse que se usa para una multitud de cosas ya que es un sub-set de librerías que en conjunto cuentan con una gran cantidad de funciones de uso común.

setwd("~/Dropbox/GitHub/ProbEstad")
# To set the working directory realtive to the user's dir

library(tidyverse)
library(fdth)
library(UsingR)
library(formatR)

Iniciaremos con unos ejemplos muy simples de funciones ya integradas en R de carácter muy general. Empezando por cargar una serie de números, usando una serie de datos de la cantidad de ballenas que llegaron a la playa en el estado de Texas, E.E.U.U. por año, en la década de los 90’s.

# Whale beaching per year in Texas during the 1990's create a vector
whales <- c(74, 122, 235, 111, 292, 111, 211, 133, 156, 79)
#
whales  # print the variable whales

 [1]  74 122 235 111 292 111 211 133 156  79

sum(whales)

[1] 1524

length(whales)

[1] 10

#
sum(whales)/length(whales)

[1] 152.4

#
mean(whales)

[1] 152.4

sd(whales)

[1] 71.50789

#
median(whales)

[1] 127.5

mad(whales)  # median absolute deviation

[1] 57.0801

Como se puede ver con simples comandos se pueden estimar estadísticas de los datos. Un mecanismo para describir una series de datos crudos es el ordenamiento, es decir si yo tengo un conjunto de datos numéricos una técnica para describirlos es iniciar por ordenarlos. En los tiempos anteriores a las computadoras esto tomaría un esfuerzo, pero en la actualidad se hace por una solicitud de ordenamiento, en el R existe un comando que hace esto en un paso, también es por medio de un comando que se puede encontrar el mínimo o el máximo.

sort(whales)

 [1]  74  79 111 111 122 133 156 211 235 292

min(whales)

[1] 74

max(whales)

[1] 292

Y de esta colección de instrucciones se tienen el rango y la suma acumulada. Pero uno de los comandos más útiles puede ser el summary, que nos entrega una serie de parámetros de la variable, y vale la pena mencionar que a esta funciona se le puede pasar una estructura que entregará la misma serie de parámetros para cada variable de la estructura, y muchas otras estructuras de R, como veremos posteriormente.

range(whales)

[1]  74 292

cumsum(whales)  # cumulative sum of a vector

 [1]   74  196  431  542  834  945 1156 1289 1445 1524

summary(whales)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   74.0   111.0   127.5   152.4   197.2   292.0

Definiciones

El material básico de la estadística son los datos, datos experimentales, datos poblacionales, datos económicos y de mercado, etc. Dichos datos se puedes describir como números, pero en realidad son mucha más, pueden ser términos descriptivos, datos cualitativos, datos relacionales. En general pueden ser objetos de cuenta.
La estadística es el área de estudio de la colección, ordenamiento, concentración y análisis de datos y la extracción de inferencias a cerca de un sistema que describen datos parciales que se toman de dicho sistema.

Fuentes de datos

La necesidad de desarrollar estimaciones estadísticas está motivada por la necesidad de contestar preguntas relacionadas a un sistema que no se puede medir en totalidad y solo se pueden extraer medidas parciales de el. Por lo tanto, es necesario adquirir datos del sistema que se quiera estudiar, ya que estos datos serán la materia prima para llegar a conclusiones de preguntas relativas a dicho sistema. En la actualidad las fuentes de datos son muy variadas y se pueden agrupar en algunos grupos;

Repositorios públicos o de acceso semi-público administrados. Repositorios que son regularmente alimentados por instituciones encargadas de administrar y curar dichos datos. Como ejemplos pueden ser archivos de pacientes de sistemas de salid, bases de datos de instituciones gubernamentales o no-gubernamentales, entre otros.

Encuestas. Cuando se quieren obtener datos específicos se de algunas cuestiones en particular se pueden hacer una serie de preguntas estructuradas que sean contestadas en forma libre por los sujetos de estudio.

Experimentos. En ocasiones particulares, es común que los datos que se tienen son resultado de experimentos planeados para responder a una condición específica.

Fuentes externas. En ocasiones se cuenta ya con datos de situaciones que se quieren estudiar y se pueden extraer datos de dichos estudios anteriores, para deducir información. Ejemplos pueden ser publicaciones anteriores, entre otros.

Población y Muestas

Población. Es el grupo completo de sujetos para los que se cumple alguna ley o regla. Por ejemplo: la población de todos los estudiantes, es decir todos aquellos sujetos que se dedican al estudio como actividad principal. Pero esta población se puede describir en forma más específica, por ejemplo: todos los estudiantes de licenciatura, o todos los estudiantes de escuelas técnicas. Pero hacer un estudio que nos permita concluir algo de toda la población sería necesario hacer la medida en toda la población, y esto limitaría seriamente nuestra capacidad de hacer estudios. Ya que la población podría además incluir a todos los miembros pasados, futuros y presentes, lo que en principio haría la población infinita. Por lo tanto para poder hacer un estudio y se toma una medida parcial de la población, o se a un su-grupo de la población que se quiere estudiar, un muestra de la población, y se asignan las medidas de dicha muestra como representantes de las que se obtendrían de la población completa.

Muestra. Una parte de la población, que se usa para describir a la población completa. Es un subconjunto que se toma de la población completa y puede extraerse en forma aleatoria (lo más común) o sistemática. Si se desarrolla un muestreo que sigue algoritmos para extraer muestras que no tengan influencia sobre los procesos de estimación (estadísticos) que se propone usar sobre los datos se dice que es sistemática. Cuando una muestra de tamaño $n$ extraída de una población de tamaño $N$, se dice que es aleatoria si cualquier otra muestra de tamaño $n$ tomada de la misma población, tiene la misma oportunidad de ser escogida como la muestra original.

Variables

Variables Cuantitativas

Las variables cuantitativas son aquellas que describen cantidad, por lo general son las variables más medidas. Pueden tomar varias formas, ya sea numéricas o descriptivas.

Variables Cualitativas

Las variables cuantitativas son aquellas que describen características, no son medidas en cantidad sino en atribuciones.

Variables Aleatorias

Las Variables aleatorias son aquellas que están descritas por alguna distribución. Por lo general las medidas obtenidas de algún expereimento se dice que son aleatorias, es decir cuando los valores obtenidos no pueden ser exactamente predichos antes de ser medidos. Este tipo de variables son medidas por procesos que tienen una aleatoriedad implícita (experimentales) generalmente. Las variables aleatorias además pueden ser discretas o continuas.

Variables discretas

Las variables discretas (aleatorias) para definir este tipo de variables no entraremos en detalles matemáticos mas allá del interés de este curso, así damos una definición no rigurósa de este tipo de variables. Se dice que una variable es discreta cuando tiene discontinuidades, saltos o interrupciones en los valores que puede tomar. Estas interrupciones indican la aucecia de los valores que la variable puede tomar.

Variables continuas

Las variables continuas no incluyen discontinuidades o interrupciones que son características en las variables discretas. Las variables continuas pueden tomar cualquier valor dentro del rango de la variable.

Inferencia Estadística

La inferencia estadística es el proceso por el cual se puede llegar a conclusiones relacionadas a una población a partir de información contenida en una muestra que fue extraída de dicha población.

Agrupamiento de Datos

Para iniciar el estudio de una muestra de datos se pueden hacer algunos procesos que nos permitan hacer una serie de Medidas Descriptivas de los datos que se obtuvieron a través de una muestra tomada de una población.
Como ya lo expusimos en el ejemplo del número de ballenas que llegaron a las playas del estado de Texas en la década de los 90’s. uno de los pasos iniciales que se puede hacer para entender un conjunto de datos medidos es hacer una arreglo ordenado de los datos que tenemos. En el ejemplo a continuación vamos a usar una muestra de un estudio de sujetos que dejaron de fumar, se listan las edades a las que dejaron de ser fumadores. La lista al cargarse, no está ordenada ni se han manipulado los datos y por lo tanto se acostumbra decir que los datos están crudos (raw data), encontramos que si nos preguntaran cual es la edad mayor y menor de cuando este grupo de sujetos dejó de fumar nos tomaría algún esfuerzo, sin embargo si cargamos los datos en un vector (arreglo unidimensional) y lo ordenamos bastará con ver el primer y último elementos para saber cual es el mínimo y máximo del grupo de edades.

Fuma <- read_csv("DataSets/ch02_all/EXA_C02_S02_01.csv")
Fuma

# A tibble: 188 x 1
     Age
   <dbl>
 1    30
 2    43
 3    45
 4    48
 5    50
 6    53
 7    53
 8    55
 9    58
10    61
# … with 178 more rows

#
ord_Fuma <- sort(Fuma$Age)
ord_Fuma

 [1] 30 34 35 37 37 38 38 38 38 39 39 40 40 42 42 43 43 43 43 43 43 44 44 44 44
[26] 44 44 44 45 45 45 46 46 46 46 46 46 47 47 47 47 47 47 48 48 48 48 48 48 48
[51] 49 49 49 49 49 49 49 50 50 50 50 50 50 50 50 51 51 51 51 52 52 52 52 52 52
 [ reached getOption("max.print") -- omitted 113 entries ]

tail(ord_Fuma)

[1] 76 77 78 78 78 82

#
summary(Fuma)

      Age       
 Min.   :30.00  
 1st Qu.:48.00  
 Median :54.00  
 Mean   :54.99  
 3rd Qu.:61.00  
 Max.   :82.00

Otra forma muy útil de visualizar un conjunto de datos es el diagrama de tallo y hojas, este se diagrama en R se estima con el comando stem(), otra función de utilidad es hacer una tabla de frecuencias con table() y esta función se usa para preparar los datos en un variable para hace una gráfica de barras por ejemplo, barplot(table(Fuma$Age, col = "red")) pero una de las funciones más útiles para generar gráficas es el histograma, en R hist(), (claro que hay toda una gama de posibilidades en ggplot para hacer histogramas). Y un histograma con el polinomio de frecuencias graficando sobre el histograma, para usar simple.freqpoly() es necesario tener cargada la librería de UsingR.

stem(Fuma$Age)


  The decimal point is 1 digit(s) to the right of the |

  3 | 04
  3 | 577888899
  4 | 00223333334444444
  4 | 55566666677777788888889999999
  5 | 0000000011112222223333333333333333344444444444
  5 | 555666666777777788999999
  6 | 00001111111111122222233444444
  6 | 556666667888999
  7 | 0111111123
  7 | 567888
  8 | 2

table(Fuma$Age)


30 34 35 37 38 39 40 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 
 1  1  1  2  4  2  2  2  6  7  3  6  6  7  7  8  4  6 17 11  3  6  7  2  6  4 
61 62 63 64 65 66 67 68 69 70 71 72 73 75 76 77 78 82 
11  6  2  6  2  6  1  3  3  1  7  1  1  1  1  1  3  1

barplot(table(Fuma$Age), col = "red")

DOTplot(Fuma$Age)

#
hist(Fuma$Age)

#
hist(Fuma$Age, prob=TRUE)

simple.freqpoly(Fuma$Age)

Medidas de tendencia central

Hay varios casos que necesitan una mejor descripción que las que dan las distribuciones de frecuencia, y es necesario obtener otro tipo de medidas como un número, llamadas medidas descriptivas, estas medidas se calculan de una muestra.

Definiciónes

Una medida descriptiva que de calcula a partir de los datos de una muestra es una estadística.
Una medida descriptiva que se calcula a partir de los datos de una población se llama parámetro.

Existen varia medidas descriptivas, nosotros solo cubriremos las medidas de tendencia central y las medidas de dispersión.
Las tres medidas de tendencia central más comunes son el promedio la media y la moda.

Promedio (Media)

Promedio aritmético La medida de tendencia central más conocida es el promedio aritmético o media, y se distingue por que puede ser estimado. Para generalizar al promedio se define el promedio general como la suma de los elementos de conjunto a describir divididos entre el número total de ellos. Si los elemetos de la variable aleatoria a describir se denotan por $x_i$ cib la letra $i$ como índice de referencia de los $N$ como el número total de valores distintos. Para una población la letra $\mu$ denota el promedio de la población, con fórmula \[ \mu = \frac{\sum_{i=1}^{N} x_i}{N} \]

Sabemos que hacer una evaluación de un parámetro de toda la población puede ser imposible, por lo que se toma una muestra de la población y se evalúa el promedio de la muestra cómo una estadística para describir por el parámetro promedio. Y se define el promedio de la muestra de n elementos $x_i$ cómo \[ \bar{x} = \frac{\sum_{i=1}^{n} x}{n} \] Propiedades de promedio
1. Es único, para una serie de datos dados hay un y solo un promedio.
2. Es simple, el significado del promedio es fácil de entender y fácil de calcular.
3. Como cada elemento de la muestra entra en la estimación del promedio, este depende de cada valor. Es decir que los valores extremos tienen una influencia sobre el valor estimado, y en algunos casos distorsionar el valor estimado.

Mediana

La media de una muestra finita es el valor que divide a la muestra en dos partes iguales, de tal forma que el número de valores mayores a la media es igual al número de valores menores a ella. Muestras impares la media es exactamente el valor central mientras que el muestras pares hay dos medias centrales y la media estimada es el promedio de estos dos valores.
Propiedades de la Media
1. Es única, como con el promedio para una muestra existe solo una media.
2. Es simple, la media es fácil de calcular.
3. No es drásticamente influenciada por los valores extremos, como lo es el promedio.

Moda

La moda de una muestra de datos es el valor más común, el que ocurre más frecuentemente en la muestra. Si todos los valores de una muestra son distintos la muestra no tiene moda (se puede estimar).

Sesgo

Una distribución se puede clasificar si es simétrica o asimétrica. Se dice que si el histograma de una distribución no es simétrico la distribución esta sesgada (skewed) si la tendencia de las barras del histograma está cargada a la derecha se dice que está sesgada de forma positiva y si es para la izquierda se dice que está sesgada de forma negativa.

\[ Skewness = \frac{\sqrt{n}\sum_{i=1}^n(x_i-\bar{x})^3}{(\sum_{i=1}^n(x_i-\bar{x})^2)^{3/2}} = \frac{\sqrt{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{(n-1)\sqrt{n-1}s^3} \]

Medidas de dispersión

La dispersión en una serie de medidas nos hable de una variación en los valores que las medidas toman. Entre otros términos que se usan para referirse a la dispersión de datos son, variación, expansión.

Rango

Una forma de hablar de la dispersión de datos es dar el rango de los valores que toma toda la muestra y si el valor mínimo los es $x_L$ y el máximo del los valores es $X_H$ el rango $R$ se estima cómo

\[ R = x_M - x_L \]

Varianza

Cuando las observaciones de un rango de valores están cercanas a su media (promedio) la dispersión es menor que si este rango de valores se encuentra alejado de la media, esta dispersión se mide por la varianza y en el caso de la muestra, la varianza de la muestra se le identifica con $s^2$ con la formula

\[ s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1} \]

Grados de libertad

La razon por la que dividimos por $n-1$ refiere a lo que se conoce como grados de libertad, el razonamiento es que estamos estimando la suma de la desviación de los valores de la muestra a su promedio que deben sumar cero, se usa la cantidad $n-1$ e lugar de $n$ para usar la varianza en otros procedimientos para hacer inferencias (se usa la media). Cuando se estima la varianza de la población que tiene $N$ valores los valores son los mismos solo que se usa $\mu$ de la población y la varianza se denota por $\sigma^2$ y la definición de la varianza de la población es

\[ \sigma^2 = \frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N} \]

Desviación estándard

Como las unidades de la varianza están al cuadrado, es una medida que no está expresada ne las unidades oroginales de las medidas de la muestra y puede ser difícil de entender, para definir la dispersión en las unidades originales de la muestra se toma la raíz cuadrada de la varinaza y se define como la desviación estándard
\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}} \] El coeficiente de variación se puede usar como una medida de comparación, y se define como

\[ C.V. = \frac{s}{\bar{x}} (100)\% \]

Percentiles y cuartiles

La media y la mediana son casos especiales de un familia de parámetros conocidos por parámetros de localidad, estas medidas se describen así por que pueden usarse para designar ciertas posiciones dentro del rango de la variable.
Definición Dadas una serie de observaciones (muestra) $x_1, x_2, x_3, \dots, x_n$ el p_esimo porcentaje P es el valor de $X$ tal que el p porciento o menos de las observaciones de la muestra son menores que P y $(100-p)$ porciento o menos de las observaciones son mayores que P. Subscripts en P permiten distinguir a que porcentaje representa. El $25^o$ porcentaje se refiere al primer cuartil (cuarto) $Q_1$, el $50^o$ porcentaje (la mediana) se le conoce como el segundo cuartil $Q_2$ y el $75^o$ porcentaje es el tercer cuartil $Q_3$ las equaciones para las veriables den cada cuartil para n observaciones en la muestra son

\[ Q_1 = \frac{n+1}{4} \hspace{10pt}observaciones \hspace{10pt}ordenadas \]

\[ Q_2 = \frac{2(n+1)}{4} = \frac{n+1}{2} \hspace{10pt}observaciones \hspace{10pt}ordenadas \] \[ Q_3 = \frac{3(n+1)}{4} \hspace{10pt}observaciones \hspace{10pt}ordenadas \]

Rango intercuartildefinido por IQR (por las siglas en inglés) es la diferencia entre el tercer cuartil y el primer cuartil

\[ IQR = Q_3 - Q_1 \]

Kurtosis

Así como describimos las características de simetría por la idea de sesgo, la dispersión se puede describir en términos de kurtosis.
Definición Kurtosis is una medida del grado de tan afilada o aplanada es la distribución de nuestros datos, comparado con la distribución normal, cuya distribución está caracterizada por una forma de campana. Tres características, Mesocúrtica (muy similar a la normal), Leptocúrtica con un pico muy pronunciado en la media y Platiúrtica, muy ancha con solo un pico pequeño en la media.

\[ Kurtosis = \frac{n\sum_{i=1}^{n}(x_i-\bar{x})^4}{(\sum_{i=1}^{n}(x_i-\bar{x})^2)^2}-3 = \frac{n\sum_{i=1}^{n}(x_i-\bar{x})^4}{(n-1)^2s^4}-3 \]

Gráfica de caja (Box-plot, Box-and-Whisker plot), una herramienta muy útil para describir datos aleatorios es la gráfica de caja. Se representa a la variable en algún eje, y se dibuja una caja que un extremo representa el primer cuartil $Q_1$ y el otro extremo el tercer cuartil $Q_3$ la caja se divide en dos con una linea que representa a la mediana $Q_2$, dos líneas se extienden de la caja una llegan hasta el valor más pequeño y la otra al valor más grande, sin considerar valores extremos (outliers).

Valor extremo un valor extremo (outlier) es una observación cuyo valor, x, exede el valor del tercer cuartil $Q_3$ por una magnitud mayor a $1.5(IQR)$ o menor al primer cuartil $Q_1$ por una cantidad mayor a $1.5(IQR)$, esto es una observación de $x>Q_3 + 1.5(IQR)$ o una observación de $x < Q_1-1.5(IQR)$.