Servicios

Captura de datos

Te ayudamos a conseguir y organizar información proveniente de datos públicos o diferentes sitios web con scrapping.

Limpieza de datos

Estructuramos bases de datos con información proveniente de múltiples bases de datos en múltiples formatos. Organización de información y estandarización de variables.

Aplicaciones de visualización

Creamos aplicaciones de visualización de datos públicos para que tus usuarios puedan conocer y explorar bases de datos. Utilizamos las últimas tecnologías en visualización de datos para comunicar información.

Algoritmos

Implementamos algoritmos de inteligencia artificial para facilitar tu trabajo con datos, desde algoritmos predictivos hasta reconocimiento de patrones.

Especiales web

Desarrollamos especiales web interactivos basados en datos. Los especiales tienen diferentes componentes visuales para orientar a tus lectores. Ver ejemplos de nuestros especiales.

Quiénes somos

Datasketch es una plataforma digital de periodismo de investigación y de datos. Nuestro portal permite que periodistas, científicos de datos, científicos sociales y la ciudadanía en general pueda aprender y consultar sobre visualizaciones de datos, herramientas, software e investigaciones profundas sobre diversos temas coyunturales. Contamos con herramientas gratuitas de datos y diferentes proyectos para tender un puente entre los datos y la ciudadanía que facilite la democratización del conocimiento y una revisión crítica de las realidades sociales a partir de contrastes de información.

Nuestro equipo

Juan Pablo Marín

Ingeniero electrónico con máster en estadística computacional. Experto en ciencia de datos con aplicaciones en múltiples áreas como la economía, hidrología y periodismo.

Camila Achuri

Estadística y experta en lenguaje de programación R. Ha desarrollado diversas aplicaciones de visualización de datos en temas de movilidad y datos abiertos.

Juliana Galvis

Politóloga y candidata a magíster en Humanidades Digitales. Actualmente lidera el desarrollo de la base de datos Who Is, además de apoyar investigaciones periodísticas y creación de bases de datos.

David Daza

Licenciado en Electrónica. Experto en desarrollo de aplicaciones y sitios web con énfasis en periodismo de datos y gestión de contenidos de múltiples bases de datos.

Verónica Toro

Antropóloga e investigadora. Encargada de la gestión y organización de la comunidad datera en Colombia y Latinoamérica, además de apoyar las investigaciones periodísticas y la creación de bases de datos.

Andrea Cervera

Periodista y Comunicadora Social, encargada de la redacción de artículos, apoyo investigativo y community manager.

Ana Hernández

Matemática y experta en lenguaje de programación R. Ha colaborado para diversos proyectos como Infraestructura Visible y en el desarrollo de herramientas de visualización.

Contacto

Tres claves para interpretar mapas de posicionamiento

Mayo 16, 2017

¿Cómo visualizas un conjunto de datos de muchas variables para obtener la mayor cantidad de información posible? Aquí te lo explicamos.

¿Cómo visualizas un conjunto de datos de muchas variables para obtener la mayor cantidad de información posible? Por lo general, tenemos tres caminos para tomar una decisión: si tienes una tabla de contingencia, has un análisis de correspondencias simples; si tiene una tabla de múltiples variables, has un análisis de correspondencias múltiples, y si tienes una tabla de datos cuantitativos, piensa en un análisis de los componentes principales.

 

Lo que tienen en común estos tres métodos es que su finalidad es obtener una representación en pocas dimensiones de las variables sin perder información - o al menos sin perder tanta información.

 

El resultado final es un conjunto de coordenadas que se plasman en un plano cartesiano, también llamado mapa de posicionamiento.

 

Es muy importante que antes de visualizar esta información hagas una prueba de correlación para asegurarte de que exista cierta relación entre las variables analizadas.

 

En Datasketch utilizamos esta metodología para visualizar las causas de muertes de los diferentes premios Nobel, Grammy y Oscar en la historia.

 

 

 

¿Cómo debes interpretar esta información?

 

Es como jugar astucia naval: si dos categorías de variables escogidas por los mismos individuos coinciden, estarán cerca. En el ejemplo de las causas de muerte de los famosos, "física" está muy cerca a "enfermedad", lo que indica que una gran parte de ganadores del nobel en la categoría de física han muerto por una enfermedad no especificada.

 

Si se hiciera la respectiva prueba de asociación, y esta diera “significativa”, se podría decir que hay un fuerte relación entre ganar un Nobel de Física y morir por una enfermedad cualquiera.

 

Las categorías menos frecuentes están alejadas del centro de gravedad, lo que indica que si una variable está alejada del eje (0,0) es porque pocos individuos caen en esa categoría.

En el gráfico el ejemplo se puede ver que causas de muerte como "Guerra", "Eutanasia" o "rotura de cadera" , que están alejadas del centro del plano.

 

La proximidad entre categorías de una misma variable es excluyente por construcción, lo que quiere decir que un individuo solo puede estar en una y solo una de las categorías.

 

La lejanía entre categorías de una misma variable indica que los individuos presentan un comportamiento muy opuesto, por ejemplo las causas de muerte de los ganadores del Nobel de Medicina y los de Química, que son totalmente diferentes.

 

¿Has utilizado ese tipo de gráficos con anterioridad? ¿Qué usos le has dado? ¿Qué recomiendas evitar?

 

Datasketch

Equipo de datos