Las relaciones espurias o porqué el tamaño del pene no está relacionado con el crecimiento del PIB

Las relaciones espurias o porqué el tamaño del pene no está relacionado con el crecimiento del PIB

relaciones espurias

En mi experiencia dentro del ámbito de la economía forense frecuentemente he recurrido a nuestra amiga la estadística para validar hipótesis o soportar, de manera más objetiva, conclusiones con un grado de seguridad razonable. Aunque no soy estadístico siempre me ha parecido necesario saber manejar los datos con fluidez y entender qué es lo que de verdad nos dicen, sobre todo hoy que vivimos en un contexto de “infoxicación”.

En cualquier disciplina, y por supuesto en economía, a menudo nos encontramos con la necesidad de determinar si entre dos variables existe algún tipo de relación, si una se comporta en función de cómo lo haga la otra y en donde llamamos correlación al grado de dependencia mutua. Si se puede determinar cómo lo conocido se relaciona con un evento futuro desconocido, la ayuda al proceso de toma de decisiones es evidente.

El coeficiente de correlación lineal de Pearson rxy

El coeficiente de correlación de Pearson (rxy) es un índice de fácil ejecución e, igualmente, de fácil interpretación, que mide el grado de covariación entre distintas variables cuantitativas relacionadas linealmente. Sus valores absolutos oscilan entre 0 y 1, esto es, si tenemos dos variables X e Y, y definimos el coeficiente de correlación de Pearson entre esas dos variables como rxy entonces:

0 ≤ r_xy≤ 1

Especifico que se trata de valores absolutos puesto que, en realidad, si se contempla el signo el citado coeficiente oscila entre los valores -1 y +1. En este sentido, tan fuerte es la correlación con un coeficiente de +1 como con uno de -1. En el primer caso la relación es perfecta positiva y en el segundo, perfecta negativa.

Sinderiza correlaciones

Es importante lo de la relación lineal puesto que pueden existir variables que estén firmemente relacionadas pero no de manera lineal, en cuyo caso el coeficiente de Pearson no nos valdría:

 Correlación no lineal

Decimos que la correlación entre dos variables X e Y es perfecta y positiva cuando en la medida exacta en que aumente (o disminuya) una de ellas aumenta (o disminuye) la otra y que es perfectamente negativa cuando en la medida exacta en que aumenta (o disminuye) una variable, disminuye (o aumenta) la otra. Este tipo de variación tan perfecta es la excepción en el mundo de las ciencias sociales, como la economía, donde dado un cierto valor de la variable independiente X no encontraremos uno y solo un valor de la variable dependiente Y, pero si suele darse en el mundo de las ciencias físicas (relaciones espacio/tiempo; volumen/presión, etc..).

Por ejemplo, si relacionamos esfuerzo comercial, (gasto en publicidad, personal comercial, etc) con el nivel de ventas, probablemente obtendremos mayor nivel de facturación a mayor esfuerzo comercial, pero será casi imposible saber con exactitud qué cifra de ventas obtendrá una empresa para un nivel de gasto comercial determinado.

Correlación positiva

El conjunto de puntos del gráfico anterior lo denominamos diagrama de dispersión y tiene interés como primera aproximación para conocer la naturaleza de la relación entre dos variables. Si tal conjunto es una figura alargada (apunta a una recta) y ascendente, como es el caso, es susceptible de poder estudiarse con el coeficiente lineal de Pearson. Además, el ancho del conjunto de puntos  da una cierta idea de la magnitud de la correlación; cuanto más estrecha menor será el margen de variación en Y (variable dependiente) para los valores de X (variable independiente) y por lo tanto, más acertados los pronósticos, lo que implicará una mayor correlación.

Igualmente, si relacionásemos por ejemplo magnitudes agregadas de tipos de interés y nivel de inversión probablemente obtendríamos una relación lineal negativa puesto que conforme mayor es el coste de acceso a la financiación, menor es la capacidad para acceder a la misma y por tanto los procesos de inversión de las empresas se ralentizan o se difieren en el tiempo, encontrándonos con una nube de puntos alargada y descendente.

Correlación negativa

Con estadística un poco más avanzada descubriríamos que existen procedimientos analíticos que permiten verificar con exactitud la hipótesis de linealidad en la correlación de las variables, pero implicaría hablar de las distribuciones de Student con N-2 grados de libertad lo que excedería de la intención didáctica, mucho más modesta de esta entrada del blog, así que de momento nos conformaremos con las nubes o conjuntos de puntos para comprobar si existen tendencias lineales en las relaciones.

El coeficiente de correlación en una muestra se expresa mediante el cociente entre la covarianza de (x,y) y la desviación típica de cada una de las variables y es de fácil cálculo a través de las opciones de análisis de datos de Excel e incluso de las fórmulas “COEF.DE.CORREL” y “COEFICIENTE.R2”

rxy= σxy/σxσy

Y como ya hemos visto antes, su valor absoluto estará entre 0 y 1, existiendo una mayor correlación cuanto más cerca de uno y menor cuanto más cerca de cero. No sería acertado concluir de forma precisa ante cualquier valor. La significación de rxy depende en gran medida del tamaño de la muestra y una correlación de 0,1 puede ser relevante en una muestra suficientemente grande y otra de 0,9 no serlo en una muestra muy pequeña, pues tal y como nos enseña la ley de los grandes números, son improbables las tendencias débiles en grandes volúmenes de datos mientras que tendencias fuertes pueden ser relativamente probables en un tamaño pequeño de muestra.

Por esto, más interesante es la interpretación del coeficiente de correlación en términos de variabilidad explicada a través del coeficiente de determinación, que se define como el cuadrado del coeficiente de correlación (r^2_xy). Por ejemplo, si la correlación entre el gasto en esfuerzo comercial y el nivel de facturación es de 0,6, podemos entender que [(0,6)^2 = 0,36] es la proporción de varianza compartida entre esas dos variables y puede interpretarse como un 36% del nivel de facturación es debida al esfuerzo comercial, por lo que resta un 64% de variabilidad en el nivel de ingresos que no es explicada por la variable que hemos denominado “esfuerzo comercial”. A ese valor no explicado se le denomina coeficiente de alienación y se define como 1- r^2_xy. Por supuesto, si incrementásemos el número de variables explicativas (calidad del producto, política de precios, etc.) lograríamos incrementar la proporción de la variabilidad explicada, y eso es a lo que se llama correlación múltiple, que también excede el objetivo de esta entrada del blog.

El problema es que la correlación no implica causalidad

Correlación y causalidad

Como hemos visto, la existencia de correlación entre dos variables solo significa que ambas comparten variabilidad, pero la causa de esa variabilidad es una cuestión que sólo de forma matemática no puede resolverse. Debemos entender que la correlación entre variables pueden sugerir pero no establecer por sí misma la existencia de relación causal.

En muchas ocasiones he encontrado una deficiente comprensión de conceptos estadísticos en dictámenes periciales y, por supuesto, también en el uso del estadístico rxy lo que lleva sin remedio a concluir erróneamente debido a su mal uso.

La correlación entre variables puede aparecer por varios motivos:

i. Debido a una causalidad directa, y es que una variable es causa total o parcial del comportamiento de la otra.

ii. Debido a una causalidad indirecta, y es que existen uno o más circunstancias adicionales que están relacionadas de forma indirecta con las variables y afectan a su comportamiento.

iii. Debido a una  mala selección de los datos, y es que si estos son seleccionados de forma errónea en cantidad o calidad o son intencionadamente sesgados, puede ponerse de manifiesto una correlación por azar.

Los casos del tipo (i) están restringidos normalmente al mundo de las ciencias físicas donde se controlan todas las variables del experimento y los del caso (iii) deberían ser fácilmente identificados aplicando el sentido común. Así por ejemplo, alguien quiso ver una correlación en este estudio de la universidad de Helsinki que “demostraba” que el tamaño del pene estaba relacionado con el crecimiento del PIB. No es verdad, pero tranquilos. España es la economía número 12 del mundo en términos de PIB, así que no estamos tan mal … en términos de PIB me refiero.

Pene vs PIB

Pero en realidad hay una gran cantidad de estudios que demuestran correlaciones totalmente absurdas. Para ello no tenéis nada más que visitar la web correlated.org o tylervigen.com/spurious-correlations y echar unas risas. Evidentemente el objetivo de las citadas webs no es más que llamar la atención sobre el hecho que trato de poner de manifiesto aquí, pero es una llamada de atención no sólo para no concluir erróneamente en nuestros dictámenes periciales sino para no creernos todo aquella noticia que en televisión comienza con “un estudio científico demuestra que …”, aunque alguno encontrará cierta relación causal entre el número de ahogamientos en piscinas y las veces en que Nicolas Cage aparece en una película, y es que desde hace unos años cualquier cosa es mejor que ver una película suya.

Sinderiza correlación

En este caso y otros como él es mucho más probable la existencia de una relación espuria entre las variables analizadas, esto es, una aparente relación entre dos variables sin conexión lógica, y aunque puede parecer que la tienen, es así debido a un tercer factor no considerado y que se denomina variable escondida.

Los casos verdaderamente complejos son aquellos del tipo (ii), los de causalidad indirecta, donde sí se estudian dos variables dejando fuera causas comunes, normalmente se detectará una correlación entre ellas, aunque no exista relación causal directa alguna, y este el peligro de cometer errores. En este ejemplo de la Universidad de PennState (EEUU) de un estudio sobre 800 chicos clasificados por nivel socioeconómico, si son o no boy-scouts y si tienen o no antecedentes delictivos se obtiene una fuerte correlación negativa entre ser boy-scout y la propensión a delinquir siempre que dejemos de lado la variable de nivel socio económico. Claro está que no por ser boy-scout se es mejor persona. La cuestión es que si se trae al análisis el nivel socieconómico la correlación es nula. La hipótesis de que ser boy-scout te hace menos propenso a delinquir es errónea: el detonante real es el nivel socioeconómico, que a su vez condiciona que un chico se pueda permitir hacerse boy-scout o no.

© Javier López Gonzálvez

© Sinderiza CB

Imágenes: Andrés Diplotti para www.lapulgasnob.com; XKCD-es

¿Quieres recibir todas nuestras novedades?

Si te suscribes a nuestro blog aceptas nuestra política de privacidad y cookies

Auditor de cuentas y economista forense. Dame una hipótesis que me guste y encontraré un estudio que la valide. Tengo números en la cabeza y sé como usarlos.

0 Comentarios

Dejar una respuesta

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

*

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies