Tablas de contingencia: Cómo analizarlas fácilmente

Análisis de tablas de contingencia

Las tablas de contingencia (también llamadas a veces tablas dinámicas, tablas cruzadas, tablas de control o crosstabs como se conocen en inglés) son posiblemente la técnica estadística más utilizada en análisis de datos. En este tutorial mostraré cómo se analizan las tablas de contingencia para que cada vez que nos encontremos con una en un periódico, artículo científico o informe, podamos leerla e interpretar fácilmente los resultados. Y también para que podamos hacer tablas de contingencia en SPSS y analizar sus resultados de forma muy fácil y sencilla. 

cómo hacer tablas de contingencia facilmente

Cómo se analizan tablas de contingencia

Una tabla de contingencia está formada por dos variables y está basada en el cálculo de porcentajes. El objetivo de esta técnica estadística es averiguar si las dos variables están relacionadas y la manera de averiguarlo es mediante la distribución de porcentajes. Concretamente se trata de analizar si la distribución de porcentajes de una variable se repiten por igual en las categorías de la otra variable. Debido a que se estudia una variable en función de otra, el investigador ha de distinguir entre la variable dependiente (o a explicar) y la variable independiente (o explicativa). Esta distinción entre variable independiente y dependiente es importante porque la variable independiente se sitúa en columnas, y la variable dependiente en filas. El investigador es el que decide cuál variable es independiente (o explicativa) y cuál dependiente (o a explicar). Veamos un ejemplo paso a paso.

0. Las condiciones para hacer un análisis de tablas de contingencia

Hay dos condiciones para aplicar las tablas de contingencia como estrategia de análisis de datos:

  • Solo se pueden relacionar dos variables. Una puntualización. Sí se pueden hacer tablas de contingencia con 3 variables pero este es ya otro tema que abordaremos en otro tutorial.
  • Las variables a analizar deben ser nominales u ordinales. Las variables nominales son las que no tienen orden interno establecido (p.ej. género o estado civil), y las variables ordinales son aquellas que sí tienen un orden interno establecido y el paso de una categoría a otra no es igual (p.ej. nivel educativo, interés en la política (alto-medio-bajo-ninguno). Las tablas de contingencia no se usan para analizar relaciones de variables escalares como la edad de muchas categorías ya que si se usara la tabla sería inmensa e ilegible. Si queremos usar la edad como variable en una tabla de contingencia debemos recodificarla por rangos. Al recodificar una variable escalar como la edad por rangos, deja de ser escalar y pasa a ser ordinal, y por tanto sí se puede incluir un análisis de tablas de contingencia. Ejemplo: interés en la política según grupos de edad.

analisis de tablas de contingencia SPSSPor tanto, dos condiciones: relacionar solo 2 variables y que las variables sean nominales u ordinales. 

1. El origen o motivación de hacer una análisis de tablas de contingencia: la hipótesis de partida

Las tablas de contingencia se aplican para comprobar hipótesis donde hay una relación entre dos variables. Por ejemplo, quiero analizar si la creencia en Dios explica el interés en la política. Mi hipótesis de partida es que las personas creyentes en Dios tienen más interés en la política. Por tanto, tengo dos variables a relacionar: "interés en la política" y "creencia en Dios".

  • La variable “interés en la política” fue preguntada en cuatro categorías de respuesta: 1-mucho, 2-algo, 3-poco, 4-nada.
  • La variable “creencia en Dios” tiene dos categorías: 1-sí, 2-no.

Voy a probar esta hipótesis usando la Encuesta Mundial de Valores realizada en Alemania en 2013, que podéis descargar en la web www.worldvaluessurvey.org Usaré el software SPSS

Antes de realizar la tabla de contingencia, os presentolas tablas de frecuencias de cada variable por separado, sin haber aún cruzadolas o relaciondolas.

SPSS tablas de porcentajes

Los resultados muestran que el 41,6% de los encuestados en Alemania manifiestan estar algo interesados en la política (somewhat interest). El 27,8 dicen estar poco interesados (not very interested). El 20,8 están muy interesados (very interested). Solo un 9,8% dicen no estar nada interesados en la política (not at all interested).

tablas de contingencia SPSS

La mayoría de los encuestados en Alemania, el 65,1%, sí creen en Dios. Mientras que el 34,9% dicen no ser creyentes en Dios.

El siguiente paso es relacionar estas dos variables

2. Variable explicativa (independiente) y variable a explicar (dependiente)

Según mi impresión, criterio o hipótesis inicial es la creencia en Dios la que explica el interés en la política, por tanto, la variable “creencia en Dios” será la variable independiente (o explicativa) y la variable “interés en la política” será la variable dependiente (o a explicar). La variable creencia en Dios irá en columnas y la variable interés en la política en filas. Esta decisión de cuál variable va en columnas y cuál en filas depende absolutamente del investigador y de su hipótesis de partida. 

3. Construcción de las tablas de contingencia

En las siguientes capturas de pantalla pueden verse detalladamente los pasos a seguir para realizar una tabla de contingencia en el software SPSS.

Primero se sigue este camino: Analizar > Estadísticos Descriptivos > Tablas de contingencia. 

tablas cruzadas SPSS

 

Posteriormente, se coloca la variable independiente en columnas y la variable dependiente en filas.

crosstab-SPSS

Seguidamente, para que se calculen los “porcentajes por columnas” nos dirigimos donde pone "Casilla" y activamos solo la opción de “Porcentajes por columnas”. Apretamos, Continuar y Aceptar

contingencia tablas

 

Este es el resultado. La tabla de contingencia:

cómo analizar tablas de contingencia

 

Muy importante. Al relacionar las dos variables, se calculan los porcentajes por columnas. ¿Cómo se calculan? Normalmente estos cálculos los hace el software con el que estemos trabajando. Aunque igualmente explico cómo se calculan para que podamos entender mejor el proceso y el resultado. 

  • Al construir una tabla de contingencia, en cada celda se coloca el total de casos que cumplen las categorías donde se cruzan. Por ejemplo, en la primera casilla el número de personas que manifestaron “sí ser creyentes en Dios” y además que dijeron tener “mucho interés en la política”. En nuestro ejemplo, 283 personas.
  • Para calcular los porcentajes por columnas, se divide el número de casos de cada casilla, con el total de casos de la columna. Por ejemplo, dividimos el número de personas que “sí son creyentes” y tienen “mucho interés en la política” entre el total de personas que “sí son creyentes”, y lo multiplicamos por 100 para expresarlo en porcentaje. En nuestro ejemplo: (283 / 1286)*100 = 22,0%
  • Seguidamente se calcula el porcentaje de las otras casillas. Por ejemplo, el número de personas que “no son creyentes” y tienen “mucho interés en la política” se divide entre el total de personas que “no son creyentes”. En nuestro ejemplo: (122 / 691) * 100 = 17,7%. Y así con todas las casillas de la tabla.

Una vez que la tabla de contingencia que relaciona dos variables está expresada en porcentajes ya podemos pasar a su lectura. Si no están calculados los porcentajes, NO se puede leer la tabla de forma correcta ya que el número de casos no es igual en cada columna. Se deben presentar los porcentajes para analizar una tabla de contingencia. Una tabla de contingencia sin porcentajes es como una paella sin arroz, o sea incompleta.

4. Cómo se analizan e interpretan las tablas de contingencia

Las tablas de contingencia se leen fila por fila y de derecha a izquierda, y se interpretan los porcentajes. Comenzamos por la primera fila de respuestas y analizamos si varían los porcentajes entre las categorías de la variable independiente (la que está en columnas). A más diferencia de porcentajes en cada fila (entre las categorías de la variable en columnas), más fuerte es la relación entre las variables.

Si no hay diferencias de respuestas, es decir, si los porcentajes en una misma fila son muy similares es que no hay relación entre las variables.

Si hay diferencias entre los porcentajes es que hay relación entre las variables. Las variables se relacionan entre sí, es decir, una explica a la otra, si hay diferencias de respuestas entre las categorías que componen una variable. Veamos cómo se lee la tabla de contingencia con nuestro ejemplo anterior.

cómo analizar tablas de contingenciaSiguiendo con el ejemplo anterior, la manera correcta de describir esta tabla es:

El 20,5% de los encuestados en Alemania están muy interesados en la política (very interested). Este porcentaje es mayor en las personas creyentes en Dios (22% de los que sí creen en Dios están muy interesados en la política, frente al 17,7 de los que no creen en Dios). Dijeron estar algo interesados (somewhat interested), el 42,2% de los alemanes, y este porcentaje es mayor en los no creyentes en Dios. El 27,6 de las personas manifestaron estar poco interesadas en la política (not very interested), siendo este porcentaje casi igual para creyentes y no-creyentes en Dios (27,7 % y 27,5% respectivamente). Finalmente el 9,7% de los encuestados afirmaron no estar nada interesadas en la política (not at all interested), siendo este porcentaje levemente mayor en los no-creyentes en Dios (9,3% de las personas que creen en Dios no están nada interesadas en política, frente al 10,6% de las que no creen en Dios). Por tanto, la creencia en Dios sí explica el interés en la política, aunque es una relación débil ya que las diferencias entre creyentes y no-creyentes en Dios, solo son medianamente considerables en la categoría de los muy interesados (very interested). En el resto de categorías del interés en la política, las diferencias entre los que creen y no creen en Dios, son pequeñas o inexistentes. Estos resultados nos ayudan a entender que el interés por la política no depende de cuestiones de fe religiosa, y que el debate religioso no tiene mucha influencia sobre la movilización política. Futuros análisis deberían profundizar en otros aspectos para entender el interés en la política, tal vez el nivel educativo o el nivel de ingresos.

Hay una serie de estadísticos como Chi-cuadrado, V de Cramer, etc que ayudan a resolver la inquietud de si las variables están relacionadas y con qué fortaleza, aunque los abordaremos en próximos tutoriales.

Conclusión: cosas a recordar a la hora de hacer un análisis de tablas de contingencia:

  1. La tabla de contingencia es una técnica de análisis bivariado, relaciona dos variables y trata de averiguar si una variable explica la otra.
  2. Las tablas de contingencia permiten relacionar variables nominales y ordinales, pero no variables escalares (a no ser que las recodifiquemos por rangos).
  3. Hay que distinguir entre la variable que quiero explicar (variable dependiente) que irá en filas, y la variable explicativa (o independiente) que irá en columnas.
  4. Calcular el porcentaje por columna para poder leer la tabla de contingencia.
  5. La tabla se lee fila por fila y de derecha a izquierda.
  6. Lo importante es averiguar si los porcentajes de la variable a explicar (la que va en filas) se diferencian mucho, poco o nada entre las categorías de la variable explicativa (la que va en columnas). Si hay altas diferencias de porcentajes las 2 variables están relacionadas, una variable explica la otra. Si no hay diferencias de porcentajes es que no hay relación. Y si la diferencia es pequeña o ocurre solo en algunas categorías es que la relación explicativa entre las variables es débil.

tablas contingencia spss ejemplos interpretacionEl análisis de tablas de contingencia se utiliza muchísimo en investigación y debemos tener la facilidad de leer las tablas para no dejarnos engañar y para entender cómo funciona nuestro entorno y nuestra sociedad.

Si te gustó este artículo, por favor, compártelo por Facebook, Twitter, Google+ o Lindkedin. Gracias, hasta pronto

Escrito por Julián Cárdenas

Acerca de Julian Cardenas

Soy profesor de técnicas de investigación social: análisis cuantitativo. Doctor en Sociología, ahora en FU Berlin. Casi todo lo que aprendí, fue haciendo contactos y redes, networkiando
Esta entrada fue publicada en estadística, spss, tablas de contingencia, técnicas de investigación y etiquetada , , , . Guarda el enlace permanente.