Servicios

Captura de datos

Te ayudamos a conseguir y organizar información proveniente de datos públicos o diferentes sitios web con scrapping.

Limpieza de datos

Estructuramos bases de datos con información proveniente de múltiples bases de datos en múltiples formatos. Organización de información y estandarización de variables.

Aplicaciones de visualización

Creamos aplicaciones de visualización de datos públicos para que tus usuarios puedan conocer y explorar bases de datos. Utilizamos las últimas tecnologías en visualización de datos para comunicar información.

Algoritmos

Implementamos algoritmos de inteligencia artificial para facilitar tu trabajo con datos, desde algoritmos predictivos hasta reconocimiento de patrones.

Especiales web

Desarrollamos especiales web interactivos basados en datos. Los especiales tienen diferentes componentes visuales para orientar a tus lectores. Ver ejemplos de nuestros especiales.

Quiénes somos

Datasketch es una plataforma digital de periodismo de investigación y de datos. Nuestro portal permite que periodistas, científicos de datos, científicos sociales y la ciudadanía en general pueda aprender y consultar sobre visualizaciones de datos, herramientas, software e investigaciones profundas sobre diversos temas coyunturales. Contamos con herramientas gratuitas de datos y diferentes proyectos para tender un puente entre los datos y la ciudadanía que facilite la democratización del conocimiento y una revisión crítica de las realidades sociales a partir de contrastes de información.

Nuestro equipo

Juan Pablo Marín

Ingeniero electrónico con máster en estadística computacional. Experto en ciencia de datos con aplicaciones en múltiples áreas como la economía, hidrología y periodismo.

Camila Achuri

Estadística y experta en lenguaje de programación R. Ha desarrollado diversas aplicaciones de visualización de datos en temas de movilidad y datos abiertos.

Juliana Galvis

Politóloga y candidata a magíster en Humanidades Digitales. Actualmente lidera el desarrollo de la base de datos Who Is, además de apoyar investigaciones periodísticas y creación de bases de datos.

David Daza

Licenciado en Electrónica. Experto en desarrollo de aplicaciones y sitios web con énfasis en periodismo de datos y gestión de contenidos de múltiples bases de datos.

Verónica Toro

Antropóloga e investigadora. Encargada de la gestión y organización de la comunidad datera en Colombia y Latinoamérica, además de apoyar las investigaciones periodísticas y la creación de bases de datos.

Andrea Cervera

Periodista y Comunicadora Social, encargada de la redacción de artículos, apoyo investigativo y community manager.

Mariana Villamizar

Ingeniera de Sistemas y diseñadora. Experta en experiencia de usuario, visualización de datos y comunicación gráfica. Feminista.

Contacto

Los datos ocultos de la Registraduría

Octubre 02, 2016

Es lamentable que algunas páginas de las instituciones más serias de Colombia no permitan la reutilización y el fácil acceso de los datos públicos y pongan trabas técnicas en la consecución de los mismos.

Es por eso que ponemos a disposición de la ciudadanía los datos completos de las votaciones por departamentos, municipios, consulados y un consolidado nacional e internacional.

El pasado domingo 2 de octubre, el pueblo colombiano tenía la oportunidad de elegir si estaba o no de acuerdo con la terminación del conflicto con las FARC-EP y la construcción de una paz estable y duradera. El 50, 2% decidió votar ‘NO’ al Acuerdo de Paz entre el Gobierno y este grupo armado,  mientras que el 49,7% optó por el ‘SÍ’. El porcentaje de abstención fue de más del 60%. Al ver los resultados de estas inusuales votaciones muchos colombianos quieren conocer los datos para llegar a sus propias conclusiones sobre tendencias o patrones.

 

Al entrar a la Página de la Registraduría y tratar de acceder a los datos de la jornada de votación, los usuarios encuentran una página principal del Plebiscito, la cual muestra algunos datos relevantes para el usuario. Sin embargo, la ruta para llegar a los datos de la votación no es evidente.

 

Se puede explorar la pestaña Resultados de preconteo, la cual tiene los datos de votación para cada departamento y municipio del país, además de la información de los consulados. El problema de esta representación es que no permite tener un visión global ni comparar fácilmente diferentes regiones.

 

Para acceder a los datos de cada región se debe buscar la región específica y acceder a una url propia, es decir, existen 35 accesos diferentes dependiendo de la región seleccionada (departamentos y consulados). En el caso de los municipios, existen 1186 accesos diferentes para ver la información de cada uno.

 

Ahora, ¿qué pasaría si se quisiera hacer un análisis más detallado?. Por ejemplo, ver todos los municipios de un departamento, comparar dos departamentos o ver múltiples municipios al tiempo. En ese caso, tendríamos que visitar cada URL y extraer la información de cada uno.

 

 

Dada la complejidad de acceso a la información desagregada, organizamos esta información para cada municipio, departamento y consulado. La descarga de información se realizó a través de un scraper.

 

Un scraper permite extraer información que guarda alguna estructura en una página web.

En general, se debe considerar esto al implementar un scraper:

 

  1. Identificar las estructuras de las urls para ver cuáles son las relevantes.

  2. Analizar la estructura de las páginas y encontrar marcadores en el código html o css que permitan extraer partes relevantes de la página.

  3. Organizar las extracciones puntuales en una misma estructura, por ejemplo, una sola tabla.

 

En el caso particular de la Registraduría, estas son algunas indicaciones para que puedas construir tu propio scraper.

 

  1. Identificar estructura de URLs: En primer lugar, el usuario debe elegir un departamento, inmediatamente se escoge una opción que actualiza la URL. Esta nueva URL es oscura en el sentido en que no nos permite identificar claramente el departamento en el que estamos, por ejemplo, si se selecciona Antioquia la URL es /99PL/DPL01ZZZZZZZZZZZZZZZ_L1.htm. Sólo sabemos que al cambiar a otro departamento se cambia la URL, pero no tenemos manera de saber cómo es la secuencia lógica. Esto pasa, de igual manera, para todos los municipios por cada departamento.

  1. Identificar la estructura de las páginas: En segundo lugar, se analizó un poco la estructura de la página web para saber cómo se podía extraer la información relevante de cada URL. Para los más técnicos, se logró extraer la información utilizando selectores de CSS '#combo2 > option' para departamentos, y  '#combo3 > option', además de extraer los atributos de html llamados value.

  2. Organizar los datos: Finalmente, se separó la información de municipios y departamentos. Contamos con diferentes variables como el porcentaje de abstención, el porcentaje de participación, número de mesas escrutadas, porcentaje votación, personas hábiles para votar, etc.

 

Es lamentable que algunas páginas de las instituciones más serias de Colombia no permitan la reutilización y el fácil acceso de los datos públicos y pongan trabas técnicas en la consecución de los mismos. Datos públicos en formatos PDF, WORD o simplemente visualizados, como en el caso de la Registraduría, son buenos ejemplos de barreras que se crean para el acceso a la información pública. Como ciudadanos siempre podremos contar con los derechos de petición, sin embargo, estos suelen tomar mucho tiempo para ser atendidos.

 

Este tipo de información no solo debe ser pública, sino también abierta para Colombia, o para cualquier persona que quiera consultarla. Es por eso que ponemos a disposición de la ciudadanía los datos completos de las votaciones por departamentos, municipios, consulados y un consolidado nacional e internacional en formato CSV.

 

Descargar archivos:

 

Consolidados

 

Consulados

 

Departamentos

 

Municipios



Variables de los archivos

 

DEPARTAMENTO / MUNICIPIO / CONSULADO

URL

PORCENTAJE ESCRUTADO

NÚMERO DE MESAS INSTALADAS

TOTAL MESAS

PORCENTAJE VOTACIÓN

NÚMERO DE VOTOS

NÚMERO PERSONAS HÁBILES PARA VOTAR

PORCENTAJE SÍ

VOTOS SÍ

PORCENTAJE NO

VOTOS NO

VOTOS VÁLIDOS

VOTOS NO MARCADOS

VOTOS NULOS

PORCENTAJE MESAS INSCRITAS

PORCENTAJE ABSTENCIONISMO




Diego Trujillo

Matemático y científico de datos