I Estadística Descriptiva
Introducción
En esta clase revisaremos el concepto de estadística descriptiva, se pueden revisar las primeras páginas del Crawley o Daniel. Para trabajar algunas ideas introductorias también tomaremos algunas ideas y ejemplos del libro de Estadística con R de Verzani (Verzani, J. 2005, UsingR).
Una de las primeras cosas que es indispensable hacer al iniciar el
sistema R es determinar cual es el directorio de trabajo y si se van a
usar algunas librerías hay que cargarlas. En este caso, como ejemplo
cargaremos algunas librerías de R, entre otras una librería muy popular,
tidyverse que se usa para una multitud de comandos ya que
es un sub-set de librerías que en conjunto cuentan con una gran cantidad
de funciones de uso común.
setwd("~/Dropbox/GitHub/ProbEstad")
# To set the working directory realtive to the user's dir
library(tidyverse)
library(fdth)
library(UsingR)
library(formatR)Iniciaremos con unos ejemplos muy simples de funciones, de carácter muy general, incluidas en el sistema base de R. Empezando por cargar una serie de números, usando una serie de datos de la cantidad de ballenas que llegaron a la playa en el estado de Texas, E.E.U.U. por año, en la década de los 90’s.
# Whale beaching per year in Texas during the 1990's create a vector
whales <- c(74, 122, 235, 111, 292, 111, 211, 133, 156, 79)
#
whales # print the variable whales [1] 74 122 235 111 292 111 211 133 156 79
[1] 1524
[1] 10
[1] 152.4
[1] 152.4
[1] 71.50789
[1] 127.5
[1] 57.0801
Como se puede ver, con simples comandos se pueden estimar estadísticas de los datos. Un mecanismo para describir una serie de datos crudos es el ordenamiento, es decir si yo tengo un conjunto de datos numéricos una técnica para describirlos es ordenarlos. En los tiempos anteriores a las computadoras esto tomaría un esfuerzo, pero en la actualidad se hace por una solicitud de ordenamiento, en R existe un comando que hace esto en un paso, también es por medio de un comando que se puede encontrar el mínimo o el máximo.
[1] 74 79 111 111 122 133 156 211 235 292
[1] 74
[1] 292
Y de esta colección de instrucciones básicas también se tienen el
rango y la suma acumulada. Pero uno de los comandos más útiles puede
ser: summary, que nos entrega una serie de parámetros de la
variable que se le pasa, y vale la pena mencionar que a esta función se
le puede pasar una estructura y entregará la misma serie de parámetros
estimados para cada variable de la estructura, y muchas otras
estructuras más complejas de R, como veremos posteriormente.
[1] 74 292
[1] 74 196 431 542 834 945 1156 1289 1445 1524
Min. 1st Qu. Median Mean 3rd Qu. Max.
74.0 111.0 127.5 152.4 197.2 292.0
Definiciones
La materia prima de la estadística son los datos, datos
experimentales, datos poblacionales, datos económicos y de mercado, etc.
Dichos datos se pueden describir como números, pero en realidad son
mucho más, pueden ser términos descriptivos, datos cualitativos, datos
relacionales. En general pueden ser objetos de cuenta.
La estadística es el área de estudio de la colección, ordenamiento,
concentración y análisis de datos y la extracción de inferencias a cerca
de un sistema que describen datos parciales que se toman de dicho
sistema.
Fuentes de datos
La necesidad de desarrollar estimaciones estadísticas está motivada por la necesidad de contestar preguntas relacionadas a un sistema que no se puede medir en su totalidad y solo se pueden extraer medidas parciales de el. Por lo tanto, es necesario adquirir datos del sistema que se quiera estudiar, ya que estos datos serán la materia prima para llegar a conclusiones de preguntas relativas a dicho sistema. En la actualidad las fuentes de datos son muy variadas y se pueden agrupar en algunos grupos;
Repositorios públicos o de acceso semi-público administrados. Repositorios que son regularmente alimentados por instituciones encargadas de administrar y curar dichos datos. Como ejemplos pueden ser archivos de pacientes de sistemas de salud, bases de datos de instituciones gubernamentales o no-gubernamentales, entre otros.
Encuestas. Cuando se quieren obtener datos específicos, de algún tema en particular, se pueden hacer una serie de preguntas estructuradas que sean contestadas en forma libre por los sujetos entrevistados.
Experimentos. En ocasiones particulares, es común que los datos que se tienen son resultado de experimentos planeados para responder a una condición específica. Como es la experiencia en el trabajo científico.
Fuentes externas. En ocasiones se cuenta ya con datos de situaciones que se quieren estudiar y se pueden extraer datos de dichos estudios anteriores, para deducir información. Ejemplos pueden ser publicaciones anteriores, entre otros.
Población y Muestas
Población. Es el grupo completo de sujetos para los que se cumple alguna ley o regla. Por ejemplo: la población de todos los estudiantes, es decir todos aquellos sujetos que se dedican al estudio como actividad principal. Pero esta población se puede describir en forma más específica, por ejemplo: todos los estudiantes de licenciatura, o todos los estudiantes de escuelas técnicas. Pero hacer un estudio que nos permita concluir algo de toda la población sería necesario hacer la medida en toda la población, y esto limitaría seriamente nuestra capacidad de hacer estudios. Ya que la población podría además incluir a todos los miembros pasados, futuros y presentes, lo que en principio haría la población infinita. Por lo tanto para poder hacer un estudio, estimación, se toma una medida parcial de la población, un sub-grupo de la población a la que se quiere estudiar, o muestra de la población, y se asignan las medidas de dicha muestra como representantes de las que se obtendrían de la población completa.
Muestra. Una parte de la población, que se usa para describir a la población completa, es un subconjunto que se toma de la población completa y puede extraerse en forma aleatoria (lo más común) o sistemática. Si se desarrolla un muestreo que sigue algoritmos para extraer muestras que no tengan influencia sobre los procesos de estimación (estadísticos) que se propone usar sobre los datos se dice que es sistemática. Cuando una muestra de tamaño \(n\) extraída de una población de tamaño \(N\), se dice que es aleatoria si cualquier otra muestra de tamaño \(n\) tomada de la misma población, tiene la misma oportunidad de ser escogida como la muestra original.
Variables
Variables Cuantitativas
Las variables cuantitativas son aquellas que describen cantidad, por lo general son las variables más medidas. Pueden tomar varias formas, ya sea numéricas o descriptivas.
Variables Cualitativas
Las variables cuantitativas son aquellas que describen características, no son medidas en cantidad sino en atribuciones.
Variables Aleatorias
Las Variables aleatorias son aquellas que están descritas por alguna distribución. Por lo general las medidas obtenidas de algún expereimento se dice que son aleatorias, es decir cuando los valores obtenidos no pueden ser exactamente predichos antes de ser medidos. Este tipo de variables son medidas por procesos que tienen una aleatoriedad implícita (experimentales) generalmente. Las variables aleatorias además pueden ser discretas o continuas.
Variables Discretas
Las variables discretas (aleatorias) para definir este tipo de variables no entraremos en detalles matemáticos mas allá del interés de este curso, así damos una definición no rigurósa de este tipo de variables. Se dice que una variable es discreta cuando tiene discontinuidades, saltos o interrupciones en los valores que puede tomar. Estas interrupciones indican la aucecia de los valores que la variable puede tomar.
Variables Continuas
Las variables continuas no incluyen discontinuidades o interrupciones, por lo grneral son descritas por números reales. Las variables continuas pueden tomar cualquier valor dentro del rango de la variable.
Inferencia Estadística
La inferencia estadística es el proceso por el cual se puede llegar a conclusiones relacionadas a una población a partir de información contenida en una muestra que fue extraída de dicha población.
Tipos de Error
En estadística se pueden hacer dos tipos de error al interpretar modelos estadísticos:
- Se puede rechazar la hipótesis nula cuando es válida, esto lleva a
un error tipo I
- Se puede aceptar la hipótesis nula cuando es falsa, esto lleva a un error tipo II
Modelo estadístico
En la estimación de modelos estadísticos, los datos son “intocables” y son los que nos dicen qué pasó bajo ciertas condiciones; lo que se busca es estimar el modelo mínimo más adecuado que descriva los datos con precisión. El modelo se ajusta a los datos, no los datos al modelo. El mejor modelo es el que resulta en un mínimo de variaciones no explicadas (minimal residual variance). Se busca el modelo mínimo (menos complejo) y de esta forma se responde al principio de parsimonia.
Principio de Parsimonia
El principio de parsimonia se atribuye al filósofo británico del siglo XIV William de Occam, y por eso se le llama la Navaja de Occam y establece que :“en igualdad de condiciones, la explicación más sencilla suele ser la más probable” o “no hay que multiplicar las causas sin necesidad”. No garantiza que la explicación más simple sea verdadera, pero funciona como una regla heurística para elegir hipótesis o modelos cuando varios explican por igual la evidencia disponible.
Agrupamiento de Datos
Para iniciar el estudio de una muestra de datos se pueden hacer
algunos procesos que nos permitan hacer una serie de Medidas
Descriptivas de los datos que se obtuvieron a través de una muestra
tomada de una población.
Como ya lo expusimos en el ejemplo del número de ballenas que llegaron a
las playas del estado de Texas en la década de los 90’s. uno de los
pasos iniciales que se puede hacer para entender un conjunto de datos
medidos es hacer una arreglo ordenado de los datos que tenemos. En el
ejemplo a continuación vamos a usar una muestra de un estudio de sujetos
que dejaron de fumar, se listan las edades a las que dejaron de ser
fumadores. La lista al cargarse, no está ordenada ni se han manipulado
los datos y por lo tanto se acostumbra decir que los datos están
crudos (raw data), encontramos que si nos preguntaran cual es
la edad mayor y menor de cuando este grupo de sujetos dejó de fumar nos
tomaría algún esfuerzo, sin embargo si cargamos los datos en un vector
(arreglo unidimensional) y lo ordenamos bastará con ver el primer y
último elementos para saber cual es el mínimo y máximo del grupo de
edades.
# A tibble: 188 × 1
Age
<dbl>
1 30
2 43
3 45
4 48
5 50
6 53
7 53
8 55
9 58
10 61
# ℹ 178 more rows
[1] 30 34 35 37 37 38 38 38 38 39 39 40 40 42 42 43 43 43 43 43 43 44 44 44 44
[26] 44 44 44 45 45 45 46 46 46 46 46 46 47 47 47 47 47 47 48 48 48 48 48 48 48
[51] 49 49 49 49 49 49 49 50 50 50 50 50 50 50 50 51 51 51 51 52 52 52 52 52 52
[ reached 'max' / getOption("max.print") -- omitted 113 entries ]
[1] 76 77 78 78 78 82
Age
Min. :30.00
1st Qu.:48.00
Median :54.00
Mean :54.99
3rd Qu.:61.00
Max. :82.00
Otra forma muy útil de visualizar un conjunto de datos es el diagrama
de tallo y hojas, este diagrama en R se estima con el comando
stem(), otra función de utilidad es hacer una tabla de
frecuencias con table() y esta función se usa para
preparar los datos en una variable para hace una gráfica de
barras por ejemplo, barplot(table(Fuma$Age, col = "red"))
pero una de las funciones más útiles para generar gráficas es el
histograma, en R hist(), (claro que hay toda una gama de
posibilidades en bibliotecas especializadas de graficación como
ggplot para hacer histogramas). Por ejemplo para graficar
un histograma con el polinomio de frecuencias presentado sobre el
histograma, se puede usar simple.freqpoly() solo que en
este caso es necesario tener cargada la librería de UsingR.
The decimal point is 1 digit(s) to the right of the |
3 | 04
3 | 577888899
4 | 00223333334444444
4 | 55566666677777788888889999999
5 | 0000000011112222223333333333333333344444444444
5 | 555666666777777788999999
6 | 00001111111111122222233444444
6 | 556666667888999
7 | 0111111123
7 | 567888
8 | 2
30 34 35 37 38 39 40 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
1 1 1 2 4 2 2 2 6 7 3 6 6 7 7 8 4 6 17 11 3 6 7 2 6 4
61 62 63 64 65 66 67 68 69 70 71 72 73 75 76 77 78 82
11 6 2 6 2 6 1 3 3 1 7 1 1 1 1 1 3 1
Medidas de tendencia central
Hay varios casos que necesitan una mejor descripción que las que dan las distribuciones de frecuencia, y es necesario obtener otro tipo de medidas como un número, llamadas medidas descriptivas, estas medidas se calculan de una muestra.
Definiciónes
- Una medida descriptiva que se calcula a partir de los datos de una
muestra es una estadística.
- Una medida descriptiva que se calcula a partir de los datos de una población se llama parámetro.
Existen varia medidas descriptivas, nosotros solo cubriremos las
medidas de tendencia central y las medidas de
dispersión.
Las tres medidas de tendencia central más comunes son el
promedio la media y la moda.
Promedio (Media)
Promedio aritmético La medida de tendencia central más conocida es el promedio aritmético o media, y se distingue por que puede ser estimado. Para generalizar al promedio se define el promedio general como la suma de los elementos de conjunto a describir divididos entre el número total de ellos. Si los elemetos de la variable aleatoria a describir se denotan por \(x_i\) cib la letra \(i\) como índice de referencia de los \(N\) como el número total de valores distintos. Para una población la letra \(\mu\) denota el promedio de la población, con fórmula \[ \mu = \frac{\sum_{i=1}^{N} x_i}{N} \]
Sabemos que hacer una evaluación de un parámetro de toda la población
puede ser imposible, por lo que se toma una muestra de la población y se
evalúa el promedio de la muestra cómo una estadística para describir por
el parámetro promedio. Y se define el promedio de la muestra de n
elementos \(x_i\) cómo \[ \bar{x} = \frac{\sum_{i=1}^{n} x}{n} \]
Propiedades de promedio
1. Es único, para una serie de datos dados hay uno y solo un
promedio.
2. Es simple, el significado del promedio es fácil de entender y fácil
de calcular.
3. Como cada elemento de la muestra entra en la estimación del promedio,
este depende de cada valor. Es decir que los valores extremos tienen una
influencia sobre el valor estimado, y en algunos casos distorsionar el
valor estimado.
Mediana
La media de una muestra finita es el valor que divide a la muestra en
dos partes iguales, de tal forma que el número de valores mayores a la
media es igual al número de valores menores a ella. Muestras impares la
media es exactamente el valor central mientras que el muestras pares hay
dos medias centrales y la media estimada es el promedio de estos dos
valores.
Propiedades de la Media
1. Es única, como con el promedio para una muestra existe solo una
media.
2. Es simple, la media es fácil de calcular.
3. No es drásticamente influenciada por los valores extremos, como lo es
el promedio.
Moda
La moda de una muestra de datos es el valor más común, el que ocurre más frecuentemente en la muestra. Si todos los valores de una muestra son distintos la muestra no tiene moda (se puede estimar).
Sesgo
Una distribución se puede clasificar si es simétrica o asimétrica. Se dice que si el histograma de una distribución no es simétrico la distribución esta sesgada (skewed) si la tendencia de las barras del histograma está cargada a la derecha se dice que está sesgada de forma positiva y si es para la izquierda se dice que está sesgada de forma negativa.
\[ Skewness = \frac{\sqrt{n}\sum_{i=1}^n(x_i-\bar{x})^3}{(\sum_{i=1}^n(x_i-\bar{x})^2)^{3/2}} = \frac{\sqrt{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{(n-1)\sqrt{n-1}s^3} \]
Medidas de dispersión
La dispersión en una serie de medidas nos hable de una variación en los valores que las medidas toman. Entre otros términos que se usan para referirse a la dispersión de datos son, variación, expansión.
Rango
Una forma de hablar de la dispersión de datos es dar el rango de los valores que toma toda la muestra y si el valor mínimo los es \(x_L\) y el máximo del los valores es \(X_H\) el rango \(R\) se estima cómo
\[ R = x_M - x_L \]
Varianza
Cuando las observaciones de un rango de valores están cercanas a su media (promedio) la dispersión es menor que si este rango de valores se encuentra alejado de la media, esta dispersión se mide por la varianza y en el caso de la muestra, la varianza de la muestra se le identifica con \(s^2\) con la formula
\[ s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1} \]
Grados de libertad
La razon por la que dividimos por \(n-1\) refiere a lo que se conoce como grados de libertad, el razonamiento es que estamos estimando la suma de la desviación de los valores de la muestra a su promedio que deben sumar cero, se usa la cantidad \(n-1\) e lugar de \(n\) para usar la varianza en otros procedimientos para hacer inferencias (se usa la media). Cuando se estima la varianza de la población que tiene \(N\) valores los valores son los mismos solo que se usa \(\mu\) de la población y la varianza se denota por \(\sigma^2\) y la definición de la varianza de la población es
\[ \sigma^2 = \frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N} \]
Desviación estándard
Como las unidades de la varianza están al cuadrado, es una medida que
no está expresada ne las unidades oroginales de las medidas de la
muestra y puede ser difícil de entender, para definir la dispersión en
las unidades originales de la muestra se toma la raíz cuadrada de la
varinaza y se define como la desviación estándard
\[ s = \sqrt{s^2} =
\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}} \] El
coeficiente de variación se puede usar como una medida de
comparación, y se define como
\[ C.V. = \frac{s}{\bar{x}} (100)\% \]
Percentiles y cuartiles
La media y la mediana son casos especiales de un familia de
parámetros conocidos por parámetros de localidad, estas medidas
se describen así por que pueden usarse para designar ciertas posiciones
dentro del rango de la variable.
Definición Dadas una serie de observaciones (muestra)
\(x_1, x_2, x_3, \dots, x_n\) el
p_esimo porcentaje P es el valor de \(X\) tal que el p porciento o menos
de las observaciones de la muestra son menores que P y \((100-p)\) porciento o menos de las
observaciones son mayores que P. Subscripts en P
permiten distinguir a que porcentaje representa. El \(25^o\) porcentaje se refiere al primer
cuartil (cuarto) \(Q_1\), el \(50^o\) porcentaje (la mediana) se le conoce
como el segundo cuartil \(Q_2\) y el
\(75^o\) porcentaje es el tercer
cuartil \(Q_3\) las equaciones para las
veriables den cada cuartil para n observaciones en la muestra son
\[ Q_1 = \frac{n+1}{4} \hspace{10pt}observaciones \hspace{10pt}ordenadas \]
\[ Q_2 = \frac{2(n+1)}{4} = \frac{n+1}{2} \hspace{10pt}observaciones \hspace{10pt}ordenadas \] \[ Q_3 = \frac{3(n+1)}{4} \hspace{10pt}observaciones \hspace{10pt}ordenadas \]
Rango intercuartildefinido por IQR (por las siglas en inglés) es la diferencia entre el tercer cuartil y el primer cuartil
\[ IQR = Q_3 - Q_1 \]
Curtosis
Así como describimos las características de simetría por la idea de
sesgo, la dispersión se puede describir en términos de kurtosis.
Definición Curtosis is una medida del grado de tan
afilada o aplanada es la distribución de nuestros datos, comparado con
la distribución normal, cuya distribución está caracterizada por una
forma de campana. Tres características, Mesocúrtica (muy similar a la
normal), Leptocúrtica con un pico muy pronunciado en la media y
Platiúrtica, muy ancha con solo un pico pequeño en la media.
\[ Kurtosis = \frac{n\sum_{i=1}^{n}(x_i-\bar{x})^4}{(\sum_{i=1}^{n}(x_i-\bar{x})^2)^2}-3 = \frac{n\sum_{i=1}^{n}(x_i-\bar{x})^4}{(n-1)^2s^4}-3 \]
Gráfica de caja (Box-plot, Box-and-Whisker plot), una herramienta muy útil para describir datos aleatorios es la gráfica de caja. Se representa a la variable en algún eje, y se dibuja una caja que un extremo representa el primer cuartil \(Q_1\) y el otro extremo el tercer cuartil \(Q_3\) la caja se divide en dos con una linea que representa a la mediana \(Q_2\), dos líneas se extienden de la caja una llegan hasta el valor más pequeño y la otra al valor más grande, sin considerar valores extremos (outliers).
Valor extremo un valor extremo (outlier) es una observación cuyo valor, x, exede el valor del tercer cuartil \(Q_3\) por una magnitud mayor a \(1.5(IQR)\) o menor al primer cuartil \(Q_1\) por una cantidad mayor a \(1.5(IQR)\), esto es una observación de \(x>Q_3 + 1.5(IQR)\) o una observación de \(x < Q_1-1.5(IQR)\).