Sesión 3 - Parte 1
Introducción a la inferencia estadística paramétrica
Una vez que sabemos describir nuestros datos y validar su distribución, el siguiente nivel es responder a las preguntas estratégicas de cualquier investigación. La inferencia estadística es el conjunto de técnicas que nos permite realizar afirmaciones sobre una población a partir de los datos observados en nuestra muestra.
En esta sesión, abordaremos cuatro tipos fundamentales de contrastes que todo investigador debe dominar:
- Test t para una muestra: Lo utilizaremos para comparar nuestro resultado actual frente a un valor de referencia, un objetivo histórico o un estándar poblacional conocido.
- Test t para muestras independientes: Es nuestra herramienta para comparar grupos distintos (ej. ¿se comportan igual los clientes de la Región A frente a los de la Región B?).
- Test t para muestras dependientes (o relacionadas): Nos permite medir la eficacia de una acción comparando el mismo grupo en dos momentos temporales diferentes (ej. antes y después de una campaña publicitaria).
- Correlación de Pearson: Es el primer paso para detectar asociaciones; nos permite saber si cuando una variable aumenta, la otra también lo hace (o decrece), cuantificando la fuerza de esa relación.
El enfoque de esta sesión: No aprenderemos a “clicar” opciones, sino a identificar qué pregunta estadística corresponde a cada problema de negocio. Una vez identificada la técnica, ejecutaremos el modelo en R, interpretaremos su significación y, sobre todo, aprenderemos a evaluar si los resultados obtenidos son robustos.
Estamos pasando de la observación simple a la toma de decisiones basada en evidencia estadística.
Inferencia paramétrica
Test t de Student para una muestra
El test t para una muestra es nuestra primera herramienta de inferencia. Lo utilizaremos cuando necesitemos saber si la media de nuestra muestra es estadísticamente diferente a un valor de referencia (o valor poblacional).
Antes de ejecutar el test, nuestra hoja de ruta es:
- Descriptivos: Siempre visualizamos la media y el histograma. Si los datos están muy sesgados o tienen outliers extremos, el test t pierde potencia.
- Planteamiento de Hipótesis:
- Hipótesis Nula (\(H_0\)): La media de la población es igual a nuestro valor de referencia (\(\mu = \mu_0\)).
- Hipótesis Alternativa (\(H_1\)): La media es diferente (\(\mu \neq \mu_0\)).
En R, la función t.test() es extremadamente flexible. Definiremos todos sus parámetros para que el código sea transparente y no quede ninguna decisión estadística “oculta”:
# Defining our target (valor de referencia)
target_mean <- 40
# Executing the t-test
test_t <- t.test(
gssft1$hrs1, # The variable to analyze
na.rm = TRUE, # Remove missing values
mu = target_mean, # The reference value
alternative = "two.sided", # Looking for "difference" (not just greater/less)
conf.level = 0.95 # Standard confidence level (95%)
)
# Printing the result
print(test_t)
One Sample t-test
data: gssft1$hrs1
t = 14.069, df = 438, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 40
95 percent confidence interval:
46.22201 48.24268
sample estimates:
mean of x
47.23235
Interpretación para el investigador: Al ejecutar el código, R nos devuelve tres datos críticos:
- t-statistic: Indica cuántas desviaciones estándar se aleja nuestra media del valor objetivo.
- p-value: Si es menor que 0.05, rechazamos la \(H_0\). Concluimos que la diferencia observada es estadísticamente significativa y no fruto del azar.
- Confidence Interval (95% CI): Nos dice el rango donde, con un 95% de probabilidad, se encuentra la verdadera media poblacional. Si el valor de referencia (40) no está dentro de este rango, ya tenemos una prueba extra de que la media es significativamente distinta.
Test t de Student para muestras independientes
Este test nos permite determinar si existe una diferencia estadísticamente significativa entre las medias de dos grupos distintos (ej. ¿consumen más internet los hombres que las mujeres?).
El protocolo de decisión
Para aplicar correctamente este test, seguimos tres pasos obligatorios:
- Diagnóstico de varianzas (Levene): Comprobamos si los grupos tienen dispersiones similares. Si el p-value es \(> 0.05\), asumimos varianzas iguales (
var.equal = TRUE). Si es \(\leq 0.05\), debemos usar la Corrección de Welch (var.equal = FALSE). - Ejecución del test: Utilizamos la sintaxis de fórmulas
variable_metrica ~ variable_factor. - Tamaño del efecto: No basta con saber si hay diferencia; calculamos el r de Cohen (o eta-cuadrado mediante la fórmula de la \(t\) y los grados de libertad) para ver si esa diferencia es relevante en el mundo real.
Diagnóstico de homogeneidad (Test de Levene)
Antes de comparar medias, comprobamos si la variabilidad es similar en ambos grupos.
Ejecución del Test t de Student
Opción A: Varianzas iguales (Si Levene > 0.05)
Usamos var.equal = TRUE.
Error:
! objeto 'gssnet2' no encontrado
Error:
! objeto 'test_t_eq' no encontrado
Error:
! objeto 'test_t_eq' no encontrado
Error:
! objeto 'test_t_eq' no encontrado
Error:
! objeto 't_val' no encontrado
Opción B: Varianzas diferentes (Si Levene ≤ 0.05)
Usamos var.equal = FALSE (Corrección de Welch).
Error:
! objeto 'gssnet2' no encontrado
Error:
! objeto 'test_t_welch' no encontrado
Error:
! objeto 'test_t_welch' no encontrado
Error:
! objeto 'test_t_welch' no encontrado
Error:
! objeto 't_val' no encontrado
Aquí tienes el texto adaptado para tu documento Quarto, utilizando el nuevo objeto gssz y el enfoque de contraste de proporciones con el ejemplo de los grupos.
Test de comparación de proporciones (Test Z)
Cuando trabajamos con variables categóricas (como el grupo de pertenencia A, B o C), ya no comparamos medias, sino proporciones. El Test Z nos permite determinar si la diferencia entre las proporciones observadas en distintos grupos es estadísticamente significativa.
1. Preparación de los datos
Utilizaremos el archivo gssz, donde hemos definido grupos de pertenencia (grupo), sexo (sexo) y edad (edad).
Error:
! objeto 'gssz' no encontrado
Error:
! objeto 'tabla_sexo' no encontrado
Error:
! objeto 'tabla_sexo' no encontrado
2. Ejecución del Test Z
Queremos verificar si la proporción de pertenencia al Grupo A es distinta entre Hombres y Mujeres.
Error:
! objeto 'tabla_sexo' no encontrado
Error:
! objeto 'tabla_sexo' no encontrado
Error:
! objeto 'exitos' no encontrado
Interpretación para el investigador: * Hipótesis nula (\(H_0\)): La proporción de pertenencia al Grupo A es igual para hombres que para mujeres. * p-value: Si el valor es \(< 0.05\), rechazamos la igualdad. En nuestro caso, al haber forzado la generación de los datos, esperamos ver una diferencia clara. * Confidence interval: Si el intervalo no incluye el valor 0, la diferencia entre las proporciones es estadísticamente significativa.
Test t Student para la media de una muestra en grupos dependientes
Error:
! objeto 'endorph1' no encontrado
Error:
! objeto 'endorph1' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'media' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'desviacion' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'errormedia' no encontrado
Error:
! objeto 'media' no encontrado
Error:
! objeto 'int_inf' no encontrado
Error:
! objeto 'media' no encontrado
Error:
! objeto 'int_sup' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'lillieforsx' no encontrado
Error:
! objeto 'y' no encontrado
Error:
! objeto 'lillieforsy' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'shapirox' no encontrado
Error:
! objeto 'y' no encontrado
Error:
! objeto 'shapiroy' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'test' no encontrado
Error:
! objeto 'test' no encontrado
Error:
! objeto 't3' no encontrado
Error:
! objeto 'test' no encontrado
Error:
! objeto 'df3' no encontrado
Error:
! objeto 't3' no encontrado
Error:
! objeto 'effect_size3' no encontrado
Correlación paramétrica de Pearson
Error:
! objeto 'anxiety' no encontrado
Error:
! objeto 'anxiety' no encontrado
Error:
! objeto 'anxiety' no encontrado
Error:
! objeto 'x' no encontrado
Error:
! objeto 'pearson.1' no encontrado
Error:
! objeto 'anxiety' no encontrado
Error:
! objeto 'anxiety.filter' no encontrado
Error:
! objeto 'p.pvalue' no encontrado
Error:
! objeto 'p.pvalue' no encontrado
Error:
! objeto 'p.pvalue' no encontrado
Error in `h()`:
! error al evaluar el argumento 'x' al seleccionar un método para la función 'plot': objeto 'anxiety.filter' no encontrado
Análisis de varianza de un factor (vía)
Nota: la variable de grupos ha de ser factor; si no es así no funciona el análisis.
Error:
! objeto 'hatco' no encontrado
Error:
! objeto 'hatco' no encontrado
Error:
! objeto 'hatco' no encontrado
Error:
! objeto 'hatco' no encontrado
Error:
! objeto 'hatco' no encontrado
Error:
! objeto 'anova1' no encontrado
Error:
! objeto 'anova1' no encontrado
Error:
! objeto 'anova1' no encontrado
Análisis de varianza de dos factores (vías)
Inferencia no paramétrica
Prueba Chi
Prueba Chi2 de una muestra
El test chi2 para una muestra, compara los resultados de una distribución marginal con los resultados proporcionados de forma externa.
Prueba Chi2 de una tabla
Error:
! objeto 'data2' no encontrado
Error:
! objeto 'tabla001' no encontrado
Error:
! objeto 'tabla001' no encontrado
Error:
! objeto 'chisq001' no encontrado
Error:
! objeto 'tabla001' no encontrado
Error:
! objeto 'chisq002' no encontrado
Otros test derivados
Correlaciones no paramétricas
Correlación de Spearman
Correlación de Kendall
Test de diferencias de una muestra en grupos independientes
Probamos la normalidad de los grupos a comparar. Probamos la normalidad de cada grupo en cada variable y una vez probado que existen problemas de normalidad en algunos de los grupos, calculamos la prueba W de Wilcoxon.
Lilliefors y Shapiro-Wilk
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi.filter' no encontrado
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi.filter' no encontrado
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi.filter' no encontrado
Error:
! objeto 'bdi' no encontrado
Error:
! objeto 'bdi.filter' no encontrado
Error:
! objeto 'es' no encontrado
Error:
! objeto 'lillie.sun.1' no encontrado
Error:
! objeto 'es' no encontrado
Error:
! objeto 'shap.sun.1' no encontrado
Error in `complete.cases()`:
! 'tipo' (closure) de argumento inválido
Error:
! objeto 'lillie.sun.2' no encontrado
Error in `shapiro.test()`:
! is.numeric(x) is not TRUE
Error:
! objeto 'shap.sun.2' no encontrado
Error:
! objeto 'ew' no encontrado
Error:
! objeto 'lillie.wed.1' no encontrado
Error:
! objeto 'ew' no encontrado
Error:
! objeto 'shap.wed.1' no encontrado
Error:
! objeto 'aw' no encontrado
Error:
! objeto 'lillie.wed.2' no encontrado
Error:
! objeto 'aw' no encontrado
Error:
! objeto 'shap.wed.2' no encontrado
Prueba W de Wilcoxon - U Mann-Withney
Aunque la probabilidad no es exactamente la misma, es muy aproximada.
Error in `wilcox.test.default()`:
! 'x' debe ser numérico
Error:
! objeto 'wilcox.test.1' no encontrado
Error:
! objeto 'aw' no encontrado
Error:
! objeto 'wilcox.test.2' no encontrado
Test de diferencias de una muestra en grupos dependientes
Prueba V de Wilcoxon
Atención, resultado de la prueba es suma de rangos negativos. no es el mismo resultado que SPSS el valor, pero si la probabilidad aproximada.
Error:
! objeto 'es' no encontrado
Error:
! objeto 'wilcox.test.3' no encontrado
Error in `wilcox.test.default()`:
! 'x' debe ser numérico
Error:
! objeto 'wilcox.test.4' no encontrado