Buscando al protagonista con EDA !






En data storytelling las historias surgen de los datos y estos pueden aparecer en cualquier momento como en el caso que les presentaré a continuación.

En los dias cercanos al lunes festivo 16 de octubre apareció en un medio de comunicación la imagen que vemos sobre los dias festivos que tienen los paises al año. Uno podría pensar que en paises no desarrollados en donde hay tanto por hacer, tener tantos dias festivos no ayuda a la productividad. Pero entonces uno ve que Finlandia también aparece en el listado de países con más dias festivos al año. Sin hacer data storytelling podriamos emitir una opinión pero con data storytelling debemos ver qué dicen los datos antes de opinar.

Siguiendo los pasos de Tukey y su EDA (Exploratory data analysis), buscamos explorar los datos y entonces pensamos en más variables para relacionar. Es en este paso que descubriremos el protagonista (el subtema estrella dentro del tema de los festivos) y además después de ver lo que nos cuenten los datos, definiremos aquello que vimos en el post anterior: Vamos a definir qué cambios queremos generar en la audiencia. Queremos que el receptor se sienta feliz? indignado? avergonzado? furioso? Héroe todo poderoso que quiere tomar partido?

Entonces empezamos a pensar con qué variables podríamos relacionar la cantidad de dias festivos para descubrir alguna correlación. En una lista escribí nuevas variables tomando los cinco paises con más dias festivos de tres continentes (America, Asia y Europa) : Pib per cápita, Tasa de desempleo, tasa de empleo informal, muertes violentas por cada 100.000 habitantes, puntaje de felicidad del país, puntaje de competitividad, expectativa de vida. Y pueden ser más pero decidí explorar con estas variables usando EDA.

Esta fase implica navegar y navegar por páginas consultando datos. En este caso usé ciafactbook para el pib per cápita, banco mundial para el desempleo y expectativ de vida, worldatlas.com para tasa de trabajo informal, Foro económico mundial para puntaje de competitividad,

Desafortunadamente muchas veces nos encontraremos con gráficas y archivos pdf y no tablas, así que debemos crear el archivo excel e integrarlo al dataset más completo que se tenga. Esta es la parte aburrida pero sin esto los datos no podrán hablar.

Y empezamos a explorar. En mi caso usé R. Primero un box plot me contó que hay una gran dispersión en cuanto a dias festivos en las ciudades de America y por el contrario en Asia y Europa los dias festivos son muy similares (con outliers) * Gráfica 1

Continuando con los box plot, uno puede hacerlos para cada una de las variables como competitividad *Gráfica 2, pib per cápita * Gráfica 3, y así para cada variable. Pero entonces para ver el panorama de una forma más amplia, podemos usar las matrices de dispersión (scatter plot matrix) y así cruzar todas las variables contra todas y también hacerlo por partes para ver con mayor detalle *Gráfica 4. Para leer estas gráficas debemos tener en cuenta que la etiqueta de la variable que aparece en el cuadrado vacio (Sin gráfica. Solo el nombre de la variable), será la variable del eje X de esa columna. Para este caso, podemos ver 12 dias, 13, 14, 15 dias festivos, etc. Y la variable del eje Y de la gráfica, será la variable que se encuentre al lado derecho ó izquierdo. En este caso se trata de Pib per cápita, a la derecha. Y después de ver varias matrices cruzando la variable Dias festivos al año con otras variables, fuí descubriendo información que me llevó a revisar con más detalle algunas correlaciones *Gráfica 5,

Y asi, después de ver la forma de los datos, nos apoyamos en la estadística para ver el grado de las correlaciones positivas y negativas y usando "summary" obtenemos los valores mínimos, máximos, primer y tercer cuartil, mediana y media de cada variable. Estos valores serán útiles en la redacción de la historia.

Pues bien, después de la fase de EDA apareció el protagonista, el obstáculo ó el picante para manejar durante la historia y mantener al espectador atento hasta el final y también se definió qué sentimiento se quería generar en el espectador. Aquí ustedes pueden tener varias ideas en este momento sobre por donde creen que enfoqué la historia según el enfoque que a ustedes les gustaría. Si! Aquí aparece la parte subjetiva. Es inevitable. Los datos cuentan una historia pero el enfoque depende del narrador, del data storyteller!

Pueden ir pensando qué historia surgió y les presentaré la historia en el próximo post.

Hasta la próxima!

@soniaardila1