Servicios

Captura de datos

Te ayudamos a conseguir y organizar información proveniente de datos públicos o diferentes sitios web con scrapping.

Limpieza de datos

Estructuramos bases de datos con información proveniente de múltiples bases de datos en múltiples formatos. Organización de información y estandarización de variables.

Aplicaciones de visualización

Creamos aplicaciones de visualización de datos públicos para que tus usuarios puedan conocer y explorar bases de datos. Utilizamos las últimas tecnologías en visualización de datos para comunicar información.

Algoritmos

Implementamos algoritmos de inteligencia artificial para facilitar tu trabajo con datos, desde algoritmos predictivos hasta reconocimiento de patrones.

Especiales web

Desarrollamos especiales web interactivos basados en datos. Los especiales tienen diferentes componentes visuales para orientar a tus lectores. Ver ejemplos de nuestros especiales.

Quiénes somos

Datasketch es una plataforma digital de periodismo de investigación y de datos. Nuestro portal permite que periodistas, científicos de datos, científicos sociales y la ciudadanía en general pueda aprender y consultar sobre visualizaciones de datos, herramientas, software e investigaciones profundas sobre diversos temas coyunturales. Contamos con herramientas gratuitas de datos y diferentes proyectos para tender un puente entre los datos y la ciudadanía que facilite la democratización del conocimiento y una revisión crítica de las realidades sociales a partir de contrastes de información.

Nuestro equipo

Juan Pablo Marín

Ingeniero electrónico con máster en estadística computacional. Experto en ciencia de datos con aplicaciones en múltiples áreas como la economía, hidrología y periodismo.

Camila Achuri

Estadística y experta en lenguaje de programación R. Ha desarrollado diversas aplicaciones de visualización de datos en temas de movilidad y datos abiertos.

Juliana Galvis

Politóloga y candidata a magíster en Humanidades Digitales. Actualmente lidera el desarrollo de la base de datos Who Is, además de apoyar investigaciones periodísticas y creación de bases de datos.

David Daza

Licenciado en Electrónica. Experto en desarrollo de aplicaciones y sitios web con énfasis en periodismo de datos y gestión de contenidos de múltiples bases de datos.

Verónica Toro

Antropóloga e investigadora. Encargada de la gestión y organización de la comunidad datera en Colombia y Latinoamérica, además de apoyar las investigaciones periodísticas y la creación de bases de datos.

Andrea Cervera

Periodista y Comunicadora Social, encargada de la redacción de artículos, apoyo investigativo y community manager.

Mariana Villamizar

Ingeniera de Sistemas y diseñadora. Experta en experiencia de usuario, visualización de datos y comunicación gráfica. Feminista.

Contacto

Tras los datos de Don Quijote de la Mancha

Mayo 07, 2017

Exploramos los datos detrás de Don Quijote de la Mancha, descubrimos qué tan largos son sus capítulos, dónde queda el lugar de cuyo nombre Cervantes no se puede acordar y exploramos la evolución del español en los últimos 400 años.

 

“Cuando Sancho le propone a don Quijote continuar la aventura es porque sabe que si don Quijote no existiera también él dejaría de existir”. Esta frase, del escritor español Manuel Vázquez Montalbán, evidencia una realidad que se hace clara en Colombia con cada evento literario: el español moriría un poco si no fuera por el Quijote.

 

Como afirmaba Miguel de Unamuno, el Quijote es al español lo que la Biblia es al catolicismo.

Por ello, quisimos analizar los datos detrás de esta gran obra literaria teniendo como telón de fondo el cierre de la Feria de Libro de Bogotá que culminó el fin de semana pasado.



¿De qué habla Don Quijote?

 

"Procurad también que, leyendo vuestra historia, el melancólico se mueva a risa, el risueño la acreciente, el simple no se enfade, el discreto se admire de la invención, el grave no la desprecie, ni el prudente deje de alabarla."

 

Todos hemos oído sobre ese lugar donde empezaron las travesías del caballero de la triste figura, pero seguramente son pocos los que en realidad tienen vivas en su memoria las diferentes aventuras. Bien sea por la subyugación de la memoria a la sobredosis de información con la que vivimos en nuestros tiempos o simplemente porque nunca leyeron el libro.

 

Sin importar si haz leído el libro o no, estas son algunas frases audaces podrás tener presentes:

 

"La razón de la sinrazón que a mi razón se hace, de tal manera mi razón enflaquece, que con razón me quejo de la vuestra fermosura."

 

"...la verdad, cuya madre es la historia, émula del tiempo, depósito de las acciones, testigo de lo pasado, ejemplo y aviso de lo presente, advertencia de lo por venir."

 

"¡Desdichado de mí!, que ni soy caballero andante, ni lo pienso ser jamás y de todas las malandanzas me cabe la mayor parte!"

 

El Ingenioso Don Hidalgo Don Quijote de la Mancha está en el dominio público. Es decir, puedes leerlo gratis en línea porque los derechos de autor ya expiraron. Nuestra recomendación es que lo hagas utilizando el portal Proyecto Gutenberg, donde puedes encontrar millones de libros gratis para descargar. De allí tomamos el libro cuyos datos exploramos a continuación.

 

¿Cuánto te demorarías en leer El Quijote?

 

Sin duda, el Quijote es un libro que aborda los más variados temas que afectan al hombre: el amor, la valentía, el honor y los modales. También es un libro que parece suficientemente largo para desanimar a muchos posibles lectores.

 

El número de palabras del libro es de 372.789, lo que por sí solo no dice mucho, pero al compararlo con otros libros vemos que su longitud es considerable. El Quijote es un poco más de la mitad de Los Miserables de Victor Hugo pero un 50% más largo que Ulises de James Joyce. Un lector promedio puede leer 200 palabras por minuto, lo que quiere decir que una persona promedio tardaría 54 horas leyendo Los miserables, 30 horas leyendo Don Quijote y 21 horas leyendo Ulises. Es importante aclarar que una lectura fluida del libro puede estar menguada por los adornos literarios de palabras ya poco usadas en español.




 

Te puede interesar ver también cuánto tardarías leyendo los términos y condiciones de las principales apps.

 

Si cuentas con un poco de tiempo para lectura puedes leer Don Quijote en 15 días destinando 2 horas diarias. Ahora, si vives corriendo de un lado a otro y simplemente quieres llevarte una idea del contenido puedes escoger algunos capítulos de acuerdo a su longitud y los temas que tratan.

 

En todo el libro, las dos palabras más frecuentes son "Don" y "Quijote", seguidas por "Sancho", "si", "dijo", "tan", "respondió", "así", "señor" y "ser".

 

Partiendo de que Quijote y Sancho son en efeto (no efecto), las palabras más comunes del libro nos preguntamos cómo es la evolución de sus apariciones. Vemos que Quijote es más popular, pero no muy lejos está Sancho.



Personaje

Menciones

Don Quijote

2135

Sancho Panza

2120

Dulcinea

279

Rocinante

199

El rucio

117

 

El nombre original de Don Quijote es Alonso Quijano. Añadió, como buen caballero, su lugar de origen a su nombre. Posee una gran imaginación y modifica su entorno para hacer realidad su sueño de caballero andante. Don Quijote tardó cuatro días en seleccionar un nombre para su caballo: Rocinante, un animal de solo piel y huesos. Siempre  acompañado por su fiel amigo y compañero de aventuras, Sancho Panza, y su asno de color pardo claro, El Rucio, emprenden juntos la búsqueda por Dulcinea del Toboso, un personaje, que si bien no aparece "en persona" en la novela, se convierte en pieza fundamental de inspiración para las aventuras del ingenioso hidalgo.

 

Para explorar un poco la evolución de estos personajes a lo largo de la que es considerada la primera novela moderna en occidente, dejamos el siguiente gráfico interactivo que permite ver el número de veces que se menciona cada personaje por capítulo.

 

 

 

 

Más allá de entender las palabras más frecuentes o en dónde aparecen estas palabras o personajes, al leer los textos nos cuestionamos cómo ha cambiado el español en estos 400 años.

 

Uno de los cambios más evidentes es pasar de usar la 'f' por a la 'h'. La f en estas palabras en sus inicios se pronunciaba aspirada y evolucionó hasta nuestros días en una h. Este cambio es probablemente uno de los rasgos más característicos del español.

 

Es que desde el capítulo 2 aparece la palabra fermosa, utilizada al menos 36 veces a lo largo de la novela. Lo mismo ocurre con la palabra (mal)ferido (herido, en portugués) que es utilizada 17 veces en la novela.

 

A pesar de su uso descontinuado muchas de estas palabras todavía se encuentran consignadas en el diccionario de la La Real Academia Española.

 

Para entender un poco mejor cómo han evolucionado algunas palabras desde los tiempos de Cervantes descargamos el corpus de las palabras más comunes del español.

 

La frecuencia de las palabras más populares en español, compuesta por una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta 2004, está disponible en línea. Nosotros optamos por descargar el Corpus de Referencia del Español Actual - CREA.



Al contrastar este corpus con cada una de las palabras de El Quijote descubrimos otra serie de cambios en el idioma, desde la introducción de letras intermedias, por ejemplo la c en efecto (antes era efeto), hasta la desaparición por completo de palabras cuyo significado fuera de contexto sería difícil de comprender hoy día. A continuación, dejamos la lista de palabras que usó Cervantes en El Quijote pero que ya no usamos.

 

 

 

En un lugar de la mancha...

 

El inicio de El Quijote es posiblemente una de las frases más reconocidas del español. Esta frase motivó la investigación de académicos de la Universidad Complutense de Madrid que publicó en 2016 la solución al misterio que por siglos cuestionó a literatos y aficionados.

 

El misterioso lugar de la mancha es Villanueva de los Infantes, una ciudad que cuenta con una población de 5.800 habitantes y es capital de la comarca Campo Montiel. Es conocida también por ser el lugar donde murió el poeta Francisco de Quevedo.

 



A la gente le importa El Quijote una vez al año

 

Es interesante ver cómo, en los días cercanos al 23 de abril, día Internacional del Libro según la UNESCO, hay un pico importante en estas búsquedas.

 

La siguiente es una gráfica de Google Trends que analiza las búsquedas de El Quijote en Google en los últimos cinco años. Hay un amplio pico en 2016, año en el que se celebró el IV Centenario de la muerte de Miguel de Cervantes Saavedra, quien dio vida a don Quijote. Algo curioso es que por esos días también se conmemoró la muerte de William Shakespeare.

 

Dos personas que mueren en la misma fecha pero no el mismo día

 

La tradición dice que William Shakespeare y Miguel de Cervantes murieron el 23 de abril de 1616. Que los dos mayores genios de la literatura inglesa e hispana se despidan del mundo el mismo día parece una ironía poética. Pero lo cierto es que no murieron el mismo día, sino con 10 días de diferencia.

 

Miguel de Cervantes falleció el 22 de abril y fue enterrado el 23 de abril, fecha que se usó para su acta de defunción. Por su parte, William Shakespeare falleció el 23 de abril de 1616. Para esa fecha en Inglaterra se usaba el calendario juliano, mientras que en España se utilizaba el gregoriano. Estos calendarios tienen un desfase de 10 días, por lo que William Shakespeare habría fallecido el 2 de mayo de 1616.

 

Sin embargo, es cierto que estos dos autores han partido la historia de sus respectivas lenguas con sus obras. Si comparamos algunas tendencias, vemos que efectivamente en los países de habla hispana existe mayor interés por Cervantes que por Shakespeare. En Chile y Bolivia es donde las búsquedas de Shakespeare son más populares.

 






Si quieres explorar el libro, sin leerlo, lo puedes hacer con nuestra aplicación de datos.

Juan Pablo Marín Díaz

Juan Pablo es científico de datos. Ha trabajado en temas de estadística computacional aplicada en diversos campos como macroeconomía, hidrología y periodismo de datos.

Don Quijote

Mayo 10, 2017
Don Quijote