Sesión 1 - Parte 3

source('global.R')

Bien, ya conocemos los rudimentos del trabajo con R y estamos listos para comenzar con los contenidos propios de la asignatura, dedicada en primer término a realizar una introducción a los procedimientos básicos de trabajo con datos provenientes de recogidas estructuradas de datos o de investigaciones de mercado, predominantemente de encuesta o también llamados EDA (exploratory data analysis). Recordemos que no estamos en un curso de R, sino en una asignatura que explota datos estadísticos y utiliza (en el futoir) técnicas univariantes, bivariantes y multivariantes para obtener esa información.

Los siguientes pasos, permiten avanzar en los cálculos estadísticos y necesidades de obtención de información significativa. Este documento intenta ser una guía ilustrativa y demostrativa de como se trabaja.

En esta parte, particularmente acometeremos el trabajo básico de exploración de datos a:

  1. obtener el cálculo de frecuencias e histogramas
  2. obtener los descriptivos
  3. analizar la normalidad estadística
  4. analizar la homogeneidad de varianza

El contexto de la exploración de datos

¿Dónde están mis datos?

Mi consejo para empezar, antes de que comenzéis a conocer, las posibilidades del software con el que vais a trabajar es que los datos os los pongáis en Mis Documentos. Creemos ahí nuestro proyecto de trabajo. Un proyecto, permite que la organización de nuestro trabajo sea más sencilla, así que, nuestra primera tarea será:

  1. En Rstudio, hacer clic en File → New project
  2. Dar nombre al proyecto y saber localizar en vuestro PC dónde está. Nos da a elegir donde ponerlo, elige el equivalente a Mis documentos que tengas en tu PC o MAC. Pon un nombre sencillo, por ejmplo My first project.
  3. Hacer clic en Abrir en nueva sesión

Se desplegará una nueva ventana de RStudio con el proyecto vacío. A partir de ahora, ese será nuestro punto de partida. Estar dentro de un proyecto significa que todo se desarrolla en el mismo.

Crea una carpeta con New folder que se llame data, y dentro de la misma descomprime todos los archivos de datos que vamos a manejar. El fichero data.zip lo localizas en Aula Virtual.

Un vez hecho esto, ya podremos cargar los ficheros con una ruta relativa data/... pues estarán todos allí. Puedes ver desde el panel de Filesque es así.

Aquí tienes un video para ver lo que te indico.

El proceso de análisis

Exploración de los datos, punto de partida

Bienvenidos al corazón del análisis de mercado. Esta diapositiva representa nuestra “hoja de ruta”. Antes de ejecutar cualquier comando en R, es fundamental entender que el análisis de datos no es solo técnica, sino un proceso de pensamiento.

Para realizar una investigación sólida, debemos dominar cinco pilares fundamentales:

  1. El contexto de la explotación de datos: ¿Por qué analizamos? Los datos tienen vida y propósito; no son meros números, sino la voz de quien los proporciona.
  2. El proceso de análisis: Seguiremos un flujo lógico: desde la recolección y limpieza hasta la transformación y, finalmente, la interpretación estratégica.
  3. Escalas de medida: Aprenderemos a distinguir entre variables nominales, ordinales y de razón. En R, saber clasificar nuestra variable es el paso previo obligatorio para elegir la técnica de análisis correcta.
  4. Relación entre instrumento y base de datos: Exploraremos cómo el diseño de nuestra encuesta (el instrumento) se traduce en la estructura de nuestros dataframes. Un buen diseño de cuestionario ahorra horas de trabajo en R.
  5. La exploración (EDA - Exploratory Data Analysis): Esta es la etapa más crítica. Antes de construir modelos complejos, debemos “mirar” nuestros datos, identificar patrones, detectar valores perdidos y entender las distribuciones. Como decía John Tukey: “La exploración de datos es el detective del análisis”.

Quiero que dejéis de ver una hoja de cálculo como una tabla inerte y empecéis a verla como un conjunto de información esperando ser interpretada. Vamos a aprender a hacerle las preguntas correctas a los datos utilizando R.

“Recordad: una buena exploración no busca probar hipótesis, busca descubrir qué nos dicen los datos antes de que nosotros los forcemos a decir lo que queremos”.

Fases en la explotación de datos

La explotación de datos no comienza frente a la pantalla de R, sino en la definición previa de la investigación. Este esquema refleja las etapas necesarias para garantizar que los datos obtenidos sean útiles para el análisis:

  1. Definición metodológica: El primer paso es determinar si el enfoque será cualitativo, para comprender fenómenos, o cuantitativo, para medir variables. Esta decisión condiciona toda la estrategia posterior.
  2. Selección de la técnica: La elección entre observación directa, encuestas o registros automáticos depende del objetivo de estudio y de la fuente de información disponible.
  3. Diseño del instrumento: Consiste en estructurar el soporte de recogida (cuestionarios, formularios o sistemas de registro). Un diseño preciso es fundamental para minimizar errores durante la captura de datos.
  4. Estrategia de análisis: Una vez obtenidos los datos, se aplica la metodología de tratamiento estadístico. El éxito de esta etapa final depende directamente de la coherencia con la que se hayan ejecutado los tres pasos anteriores.

La calidad de nuestros resultados en R está intrínsecamente ligada al rigor aplicado en cada una de estas fases previas.

Procesos de análisis: De lo univariante a lo multivariante

Tarea inicial del investigador

Una vez que los datos han sido recolectados y estructurados, el investigador debe iniciar una fase de análisis descriptivo que permita sintetizar la información. Las tareas fundamentales en esta etapa son:

  1. Exploración de datos: Consiste en el examen preliminar de las variables para detectar anomalías, valores perdidos o comportamientos inusuales antes de iniciar el análisis estadístico.
  2. Recuentos: Es la tarea básica de contabilización de frecuencias, esencial para entender el tamaño de cada categoría en la muestra.
  3. Tablas marginales: Permiten obtener una visión general de la distribución de una variable por sí misma, independientemente de las demás.
  4. Tablas cruzadas: Es el método principal para analizar la relación entre dos variables, permitiendo identificar patrones o asociaciones entre ellas.
  5. Inferencia sobre tablas de contingencia: Finalmente, se aplican pruebas estadísticas (como el test de Chi-cuadrado) para determinar si las asociaciones observadas en las tablas cruzadas son estadísticamente significativas o fruto del azar.

Este flujo de trabajo permite pasar de una base de datos bruta a un conocimiento consolidado, sirviendo como base necesaria para cualquier análisis de mayor complejidad.

La profundidad del proceso de análisis varía según la complejidad de la técnica seleccionada. Aunque todo proyecto parte de una definición clara del problema, el flujo operativo se expande a medida que aumentamos la sofisticación de las herramientas utilizadas:

  • Técnicas univariantes: El proceso es directo. Tras la definición y el plan de análisis, se evalúa la aplicabilidad (comprobación de supuestos básicos) para proceder a la interpretación de los estadísticos descriptivos (medias, frecuencias, dispersión).
  • Técnicas bivariantes y multivariantes: Este flujo es más exigente. Además de las etapas iniciales, requiere una fase central de estimación y ajuste del modelo, donde se cuantifican las relaciones o estructuras subyacentes. Tras la interpretación, se añade un paso crítico: la validación del modelo, que garantiza que los resultados obtenidos son robustos, fiables y generalizables.

Mientras que en el análisis univariante buscamos describir el comportamiento de una variable, en el análisis multivariante el objetivo es reducir la incertidumbre mediante la confirmación de modelos que expliquen la estructura de los datos con rigor estadístico.

Para operar con eficacia, debemos conectar los conceptos teóricos de la investigación con la arquitectura técnica de nuestros bancos de datos. Esta fase se divide en dos ejes:

Consideraciones sobre las variables: El análisis estadístico comienza con la correcta definición de la variable. Es necesario comprender qué constituye un instrumento de medición, cómo se desglosa en preguntas y respuestas, y la distinción vital entre el valor (el dato numérico o texto) y su etiqueta (el significado que le asignamos). La codificación correcta es lo que permite que una variable pase de ser una respuesta en un cuestionario a un factor analizable en nuestro software.

Consideraciones sobre los datos: Aquí abordamos la naturaleza del archivo. No basta con disponer de información; es preciso entender cómo se estructura en filas (observaciones) y columnas (variables), qué formatos son óptimos para el intercambio entre plataformas y cómo gestionar los metadatos. La correcta diferenciación entre el dato bruto y el etiquetado de variables es lo que garantiza la transparencia y la calidad del informe final.

Dominar estos fundamentos nos permitirá evitar errores comunes en la importación y manipulación de datasets, asegurando que el análisis que realicemos en R sea preciso desde el primer momento.

Escalas de medida y tipos de variable

El primer paso para analizar un dato es definir su naturaleza. El software necesita saber qué tipo de información está procesando para aplicar la prueba estadística correcta. Clasificamos las variables bajo dos criterios:

  • 1. Según el tipo de métrica (Nivel de medición):
    • Cualitativas (No métricas): Se centran en atributos. Las variables nominales actúan como etiquetas de clasificación (ej. género), mientras que las ordinales incorporan además un sentido de jerarquía o orden (ej. nivel de satisfacción).
    • Cuantitativas (Métricas): Permiten operaciones matemáticas precisas. Las variables de intervalo poseen un orden y una magnitud de diferencia constante (ej. temperatura en grados Celsius), mientras que las de razón incluyen un cero absoluto que permite cuantificar proporciones (ej. ingresos o edad).
  • 2. Según la continuidad de valores:
    • Discretas: Representan valores contables que no admiten decimales intermedios (ej. número de hijos).
    • Continuas: Pueden asumir cualquier valor dentro de un rango determinado, lo que permite una medición de alta precisión (ej. tiempo de respuesta o peso).

La identificación correcta de estas escalas es el paso crítico que determinará nuestra capacidad para ejecutar modelos estadísticos. En R, esta clasificación es la que guía la elección entre utilizar un gráfico de barras, un histograma, un test no paramétrico o una regresión lineal.

Relación instrumento de medida - cuestionario

La traducción de un cuestionario a una base de datos no siempre es lineal. Debemos comprender que la estructura final en nuestro dataframe depende directamente del diseño de la pregunta.

  1. Preguntas simples (P1, P2): Son las más directas. Una pregunta se traduce habitualmente en una sola columna con el valor registrado (ej. el código de respuesta o el número de años).
  2. Preguntas de respuesta múltiple (P3): Estas preguntas (como la de “averías sufridas”) requieren una atención especial. Aunque en el cuestionario aparecen bajo un mismo enunciado, en la base de datos se transforman en tantas columnas como opciones de respuesta existan (P3_1, P3_2, etc.). Cada columna funciona como una variable binaria (0/1 o Sí/No), lo que permite al encuestado seleccionar varias opciones simultáneamente.
  3. Baterías o escalas (P4): Aunque visualmente ocupan varias columnas (P4_1, P4_2…), su naturaleza es distinta a la multirespuesta. Aquí, cada columna representa el mismo concepto medido bajo la misma escala (ej. escala Likert). A diferencia de la multirespuesta, estas columnas son intrínsecamente comparables entre sí y suelen analizarse conjuntamente como una unidad de medida.

Entender esta distinción es vital para el analista: mientras que en una escala (P4) buscaremos analizar la consistencia interna entre los ítems, en una multirespuesta (P3) el objetivo es contabilizar la incidencia de cada una de las opciones por separado. Dominar este paso es lo que separa a quien simplemente “tiene datos” de quien sabe estructurarlos para su explotación.

Múltiple en binario frente a menciones

La forma en que registramos los datos no es neutral; determina qué podemos —y qué no podemos— analizar después. Observad la diferencia crítica en las dos tablas de la diapositiva al tratar una pregunta de respuesta múltiple (P3):

  1. La tabla superior (Variables binarias): Es la forma estándar de codificar “presencia o ausencia”. Cada opción de respuesta se convierte en una columna (0 = no marcado, 1 = marcado). Es ideal para contabilizar cuántos encuestados eligieron cada elemento, pero se pierde el orden en el que fueron seleccionados.
  2. La tabla inferior (Sistema de menciones): Aquí, el valor registrado corresponde al orden de elección (1.ª mención, 2.ª mención, etc.). Esta estructura es mucho más rica y potente:
    • Conserva la jerarquía: Permite identificar qué avería fue la más crítica o la que primero vino a la mente del usuario.
    • Análisis de Top of Mind (TOM): Es la única forma de aislar la primera respuesta para medir el recuerdo espontáneo o la prioridad máxima del consumidor.

Conclusión: Mientras que el sistema de binarias es excelente para realizar recuentos globales de incidencias, el sistema de menciones es la herramienta que nos permite “leer la mente” del encuestado al capturar su orden de preferencias. Como investigadores, elegir entre una u otra estructura no es un tema técnico, sino una decisión estratégica: ¿queremos saber cuánto ha ocurrido algo o qué ha sido lo más relevante para el mercado?

Ejercicio práctico de clasificación de escalas

Para operar con datos, la teoría debe transformarse en una acción inmediata: clasificar. A continuación, analizamos nuestro banco de datos de hábitos digitales. El objetivo es identificar la escala de medida real de cada variable, superando la apariencia superficial de los datos.

  • Age (Edad en años): Escala de razón. Tiene un cero absoluto y permite medir cuántas veces es mayor una edad que otra.
  • Educ (Años de estudios): Escala de razón o intervalo (según el contexto), pero en investigación de mercados suele tratarse como métrica para promedios.
  • Usecomp, usenet, usemail (Binarias 1/0): Escala nominal. Aunque los valores sean numéricos (0 o 1), estos números son meras etiquetas que indican presencia o ausencia.
  • Emailhrs, webhrs, nethrs (Horas): Escala de razón. Son variables continuas que permiten realizar cálculos aritméticos directos.
  • Netcat (Categorizada 1-4): Escala ordinal. Aunque derivan de una variable continua, al agruparlas en rangos, hemos perdido la precisión exacta y solo conservamos el orden o jerarquía.
  • Region (A=1, B=2…): Escala nominal. Los números asignados a las regiones no representan cantidad ni orden; solo sirven para diferenciar grupos.

El reto del analista: No os dejéis engañar por la presencia de números. En R, si clasificáis erróneamente una escala nominal (como region) como si fuera de razón (numérica), el software intentará calcular una “media de regiones”, lo cual carece de sentido lógico. Clasificar correctamente es el primer paso hacia un análisis válido.