Servicios

Captura de datos

Te ayudamos a conseguir y organizar información proveniente de datos públicos o diferentes sitios web con scrapping.

Limpieza de datos

Estructuramos bases de datos con información proveniente de múltiples bases de datos en múltiples formatos. Organización de información y estandarización de variables.

Aplicaciones de visualización

Creamos aplicaciones de visualización de datos públicos para que tus usuarios puedan conocer y explorar bases de datos. Utilizamos las últimas tecnologías en visualización de datos para comunicar información.

Algoritmos

Implementamos algoritmos de inteligencia artificial para facilitar tu trabajo con datos, desde algoritmos predictivos hasta reconocimiento de patrones.

Especiales web

Desarrollamos especiales web interactivos basados en datos. Los especiales tienen diferentes componentes visuales para orientar a tus lectores. Ver ejemplos de nuestros especiales.

Quiénes somos

Datasketch es una plataforma digital de periodismo de investigación y de datos. Nuestro portal permite que periodistas, científicos de datos, científicos sociales y la ciudadanía en general pueda aprender y consultar sobre visualizaciones de datos, herramientas, software e investigaciones profundas sobre diversos temas coyunturales. Contamos con herramientas gratuitas de datos y diferentes proyectos para tender un puente entre los datos y la ciudadanía que facilite la democratización del conocimiento y una revisión crítica de las realidades sociales a partir de contrastes de información.

Nuestro equipo

Juan Pablo Marín

Ingeniero electrónico con máster en estadística computacional. Experto en ciencia de datos con aplicaciones en múltiples áreas como la economía, hidrología y periodismo.

María Isabel Magaña

Periodista con máster en periodismo de investigación, datos y visualización. Ha liderado el derecho al acceso a la información por medio de la plataforma queremos datos.

Camila Achuri

Estadística y experta en lenguaje de programación R. Ha desarrollado diversas aplicaciones de visualización de datos en temas de movilidad y datos abiertos.

Juliana Galvis

Politóloga y candidata a magíster en Humanidades Digitales. Actualmente lidera el desarrollo de la base de datos Who Is, además de apoyar investigaciones periodísticas y creación de bases de datos.

David Daza

Licenciado en Electrónica. Experto en desarrollo de aplicaciones y sitios web con énfasis en periodismo de datos y gestión de contenidos de múltiples bases de datos.

Verónica Toro

Antropóloga e investigadora. Encargada de la gestión y organización de la comunidad datera en Colombia y Latinoamérica, además de apoyar las investigaciones periodísticas y la creación de bases de datos.

Andrea Cervera

Periodista y Comunicadora Social, encargada de la redacción de artículos, apoyo investigativo y community manager.

Ana Hernández

Matemática y experta en lenguaje de programación R. Ha colaborado para diversos proyectos como Infraestructura Visible y en el desarrollo de herramientas de visualización.

Contacto

Diles cómo luces y te dirán quién eres

Agosto 15, 2018

Los avances en inteligencia artificial alrededor del reconocimiento facial nos siguen sorprendiendo, diles cómo luces y te dirán quién eres.

Hace casi un año nos sorprendimos con la publicación de algunos avances en inteligencia artificial alrededor del reconocimiento facial. El desarrollo en mención se refiere a la identificación de la orientación sexual de personas a partir de fotos de su cara. La investigación llevada a cabo por Michal Kosinski y Yilun Wang, de la Universidad de Stanford, tomó 35.326 fotos de 14.776 personas separadas en proporciones similares en heterosexuales, homosexuales, hombres y mujeres. A través de marcadores (secuencias de números que representan una cara en una foto), el sistema logró identificar correctamente en un 91% de los casos la orientación sexual de los sujetos de prueba que tenían al menos 5 fotos. Usando las mismas fotos una persona pudo identificar correctamente la orientación sexual, el 61% de las veces para hombres y el 54% de las veces para mujeres. Las imágenes fueron tomadas de un reconocido sitio citas por internet en Estados Unidos; en condiciones no controladas, como la del experimento, se pueden esperar resultados menores. Los científicos atribuyen el éxito del algoritmo a que la máquina logra capturar patrones imperceptibles para los humanos en rasgos de las cejas, la boca o las pestañas.

 

via GIPHY

 

Diferentes algoritmos y marcadores de caras de las personas pueden ser usados para diferentes aplicaciones. En 2016, científicos chinos publicaron un artículo en el que aseguraban que podían identificar criminales a partir de fotos de caras de personas tomadas del carné de identidad chino para personas con y sin prontuario delictivo. Los investigadores defienden que el estudio no contiene sesgos, sin embargo, diversas críticas no se hicieron esperar. Entre ellas, Kate Crawford, de Microsoft Research, quien fue enfática en recalcar que: "Siempre debemos sospechar de sistemas de aprendizaje maquinal que se hagan llamar libres de sesgos ya que han sido construidos con datos generados por humanos".

 

 

Lo cierto es que la gran mayoría de estos sistemas de reconocimiento facial utilizan datos sesgados que pueden llevar a conclusiones erróneas.

 

El clásico ejemplo de estas tecnologías lo da el profesor Pedro Domingos, autor del libro de aprendizaje maquinal: "El algoritmo maestro". Domingos cuenta que uno de sus colegas implementó un algoritmo para clasificar y separar perros de lobos en una muestra de fotos. Su algoritmo funcionó a la perfección, ya que tenía una efectividad cercana al 100%. El único problema fue que los datos con los que se entrenó al computador para todas las fotos de lobos tenían un fondo blanco por la nieve. Así, el algoritmo en realidad aprendió a separar aquellas fotos que tenían nieve de las que no.

 

via GIPHY

  

Otro de los casos de servicios y empresas muy sonados en temas de reconocimiento facial es el de Faception, una empresa israelí que desde 2014 está creando tecnología para identificar si una persona es terrorista o pedófilo utilizando únicamente sus rasgos faciales. Históricamente la identificación de personas de interés parte de una base de datos para cotejar, pero en los casos donde no existen estas bases de datos compañías como Faception sugieren que los rasgos de personalidad se ven reflejados en el rostro y por tanto, pueden ser medidos y estimados a partir de imágenes con diversas aplicaciones, en particular, se venden como una empresa para ayudar a la seguridad pública.

 

En la construcción de bases de datos de cotejo el premio se lo lleva NtechLab, una empresa en Moscú que ha ganado premios internacionales en identificación de rostros. La empresa rusa tiene tasas de identificación superiores al 80% analizando millones de imágenes en cuestión de segundos. La empresa construyó sus bases de datos extrayendo información de de VKontakte, el facebook ruso, y se hizo famosa con un app, FindFace.ru para encontrar el nombre de cualquier persona solo con una foto de la misma que puede ser tomada por cualquier extraño en la calle. Diferentes medios reportan también que la NtechLab ha descargado masivamente fotos de perfil de twitter para integrar en su sistema. La empresa ya tiene contratos en Moscú para hacer seguimiento a ciudadanos con el fin de proveer mejor seguridad a través de cámaras en espacio público, las cuales, en su piloto inicial de dos meses el año pasado sirvieron para capturar al menos 6 personas buscadas por agencias federales rusas, según reporta bloomberg.

 

En China, compañías como SenseTime, utilizan el reconocimiento facial para hacer recomendaciones de productos en tiendas, pero también para el programa de ciudades inteligentes y seguras. Los fundadores de la empresa creen, como Google, en no apoyar el control ciudadano por parte de gobiernos. Sin embargo, Google parece estar cediendo ante el interés del gobierno chino de tener un buscador que cumpla con sus términos (censura). Recientemente, algunas empresas chinas han empezado a exportar los servicios de vigilancia facial a gobiernos como el de Zimbabue.

 

A pesar de los avances conseguidos a hoy, las ganas de diferentes gobiernos de mostrar cuál es el primer Gran Hermano y las exageraciones de los medios sobre la eficacia de estas tecnologías, en la práctica todavía no se cuenta con soluciones completas y escalables. Los algoritmos actuales solo pueden hacer un número limitado de búsquedas en un momento dado. Dispositivos de seguridad y autenticación facial han sido hackeados. O compañías líderes en el mundo como Amazon han reconocido erróneamente congresistas de Estados Unidos como personas arrestadas previamente utilizando su solución de reconocimiento facial, Rekognition. Estas últimas clasificaciones erróneas corresponden en gran número a personas de color, mostrando una vez más sesgos en los algoritmos que pueden llevar a violaciones de derechos fundamentales de los ciudadanos.

 

Es por esto que a partir de este y otros informes, diferentes grupos de activistas están haciendo un llamado a la regulación de las tecnologías de reconocimiento facial, la cuales son: "... el mecanismo más peligroso de vigilancia masiva nunca antes inventado."

 

A pesar de algunas ventajas para hacer más cómoda y ágil la vida de unas personas, estas tecnologías deberían ser reguladas y criminalizadas, como el software de Spyware, menciona

Woodrow Hartzog, profesor de leyes y ciencias de la computación en Northeastern University. Hartzog agrega  que estas tecnologías:

  • Facilitan el acoso, como ocurrió en el caso de trabajadoras sexuales encontradas a través de FindFace.ru en Rusia.
  • Impactan desproporcionadamente a personas de color y otras minorías, como ocurrió en el caso de los congresistas en Estados Unidos o en el "gaydar" con personas que se identifican con otros géneros.
  • Desprotegen a los ciudadanos sobre seguimientos a hábitos, relaciones interpersonales y la intimidad por parte del gobierno.
  • Van en contravía de la presunción de inocencia y se asume que cualquiera es susceptible de cometer algún delito en cualquier momento.

 

Lo más alarmante de esta situación es que estas preocupaciones son reales. Ya han ocurrido con otros tipos de sistemas, bien sea por medio de interceptaciones telefónicas o seguimientos, lo que cambia es la escala a la que se puede hacer por el uso de los algoritmos y la ciencia sin una valoración de impacto.

 

"Las tecnologías de reconocimiento facial son una amenaza disfrazada como un regalo"

 

¿Recuerdan al investigador Michal Kosinski del gaydar al comienzo de esta historia? Durante una conversación mencionó a The Guardian:

 

"Puedo estar preocupado porque perdimos nuestra privacidad, pero eso no cambiará el hecho de que ya no hay vuelta atrás sin que tengamos que destruir esta civilización".

 

Durante su visita a Moscú (patrocinada por el Sberbank, un banco estatal sancionado por la Unión Europea), Kosinski, presentó sus investigaciones sobre el impacto de la inteligencia artificial en el perfilamiento de personas. En esta presentación es posible que haya enseñado sus hallazgos directamente a agentes de inteligencia rusos y altos dignatarios, como el primer ministro Medvedev. Kosinski, con su investigación sobre inferencia de patrones de comportamiento basado en datos, también participó como seminarista para el Servicio Británico de Inteligencia y como Consejero indirecto para Cambridge Analytica, en la cual Aleksandr Kogan, un colega suyo de investigación, implementó los algoritmos de perfilamiento con datos de 50 millones de usuarios de Facebook que eventualmente influyeron (¿o no?) en la elección de Donald Trump como presidente de Estados Unidos.

 

El debate sobre las implicaciones de estas tecnologías se debe empezar en nuestros países que normalmente son importadores de estos avances tecnológicos. Recordemos que al menos en Bogotá recientemente se han hecho grandes inversiones en materia de cámaras de seguridad, y que adicionalmente, el alcalde Enrique Peñalosa aparece como uno de los clientes de Cambridge Analytica.

 

Mientras proponemos caminos de acción por los derechos de los ciudadanos, esperemos que la tecnología de vigilancia masiva todavía tenga tropiezos en su implementación.

 

 

Juan Pablo Marín Díaz

Juan Pablo es científico de datos. Ha trabajado en temas de estadística computacional aplicada en diversos campos como macroeconomía, hidrología y periodismo de datos.