Servicios

Captura de datos

Te ayudamos a conseguir y organizar información proveniente de datos públicos o diferentes sitios web con scrapping.

Limpieza de datos

Estructuramos bases de datos con información proveniente de múltiples bases de datos en múltiples formatos. Organización de información y estandarización de variables.

Aplicaciones de visualización

Creamos aplicaciones de visualización de datos públicos para que tus usuarios puedan conocer y explorar bases de datos. Utilizamos las últimas tecnologías en visualización de datos para comunicar información.

Algoritmos

Implementamos algoritmos de inteligencia artificial para facilitar tu trabajo con datos, desde algoritmos predictivos hasta reconocimiento de patrones.

Especiales web

Desarrollamos especiales web interactivos basados en datos. Los especiales tienen diferentes componentes visuales para orientar a tus lectores. Ver ejemplos de nuestros especiales.

Quiénes somos

Datasketch es una plataforma digital de periodismo de investigación y de datos. Nuestro portal permite que periodistas, científicos de datos, científicos sociales y la ciudadanía en general pueda aprender y consultar sobre visualizaciones de datos, herramientas, software e investigaciones profundas sobre diversos temas coyunturales. Contamos con herramientas gratuitas de datos y diferentes proyectos para tender un puente entre los datos y la ciudadanía que facilite la democratización del conocimiento y una revisión crítica de las realidades sociales a partir de contrastes de información.

Nuestro equipo

Juan Pablo Marín

Ingeniero electrónico con máster en estadística computacional. Experto en ciencia de datos con aplicaciones en múltiples áreas como la economía, hidrología y periodismo.

Camila Achuri

Estadística y experta en lenguaje de programación R. Ha desarrollado diversas aplicaciones de visualización de datos en temas de movilidad y datos abiertos.

Juliana Galvis

Politóloga y candidata a magíster en Humanidades Digitales. Actualmente lidera el desarrollo de la base de datos Who Is, además de apoyar investigaciones periodísticas y creación de bases de datos.

David Daza

Licenciado en Electrónica. Experto en desarrollo de aplicaciones y sitios web con énfasis en periodismo de datos y gestión de contenidos de múltiples bases de datos.

Verónica Toro

Antropóloga e investigadora. Encargada de la gestión y organización de la comunidad datera en Colombia y Latinoamérica, además de apoyar las investigaciones periodísticas y la creación de bases de datos.

Andrea Cervera

Periodista y Comunicadora Social, encargada de la redacción de artículos, apoyo investigativo y community manager.

Ana Hernández

Matemática y experta en lenguaje de programación R. Ha colaborado para diversos proyectos como Infraestructura Visible y en el desarrollo de herramientas de visualización.

Contacto

Seguimiento de las frases más divulgadas de los medios

Julio 15, 2017

Nifty: una herramienta que encuentra mutaciones de información en artículos de noticias

La información en tiempo real en sitios de noticias, blogs y redes sociales cambia dinámicamente y se extiende a través de la web. El desarrollo de métodos para interrogar y descubrir las historias de la información a esta escala requiere pensar cómo varía el contenido de la información a lo largo del tiempo, cómo se transmite y cómo muta mientras se extiende.

 

NIFTY es un sistema que encuentra mutaciones de una sola pieza de información en el ciclo de noticias diarias. Basado en Memetracker, cada día el sistema analiza a través de 3,5 millones de artículos de noticias y 2 millones de citas para encontrar los mejores grupos frases compartidos en la Web.

 

La herramienta utiliza un proceso llamado clustering incremental, que es una novedosa y escalable manera para extraer e identificar variantes de un solo meme.

 

NIFTY proporciona una manera simplificada de identificar qué frases y citas están haciendo las noticias y el interés en las historias a través del tiempo, separándolos en clusters diarios, semanales, mensuales y trimestrales.

 

El proyecto se desarrolló como parte del programa de prácticas de verano de Stanford en Ciencias de la Computación (CURIS). El proyecto fue apoyado por varias organizaciones y diseñado por Caroline Suen, Sandy Huang, y Chantat Eksombatchai asesorado por el profesor Jure Leskovec y el científico Rok Sosic.

Datasketch

Equipo de datos