Blog > Periodismo de datos > ¿Qué es la limpieza de datos?

¿Qué es la limpieza de datos?

Te contamos los elementos esenciales para organizar, limpiar y estructurar tus datos, qué es la estructura Tidy y por qué te recomendamos usarla.

Disponible en:

Por Nicolás Barahona. Publicado el 10 de agosto de 2021.

La limpieza de datos consiste en preparar los datos para su uso y análisis adecuados, que evite los errores y malinterpretación de los mismos.

¿Cómo limpiar los datos?

El primer paso para limpiar tus datos es contar con el formato correcto. Es ideal que los datos se encuentren en Excel o CSV. No deben ser formatos de imagen o que no se pueden reutilizar fácilmente, como el PDF.

Si tienes una imagen de la que quieras extraer información, como podría ser una foto de una tabla con datos de vacunación publicada por tu gobierno, puedes utilizar herramientas como www.onlineocr.net/es. En el caso de un PDF puedes usar nuestra aplicación y en cuatro pasos obtendrás el texto que antes no podías manipular.

Después de que tengas la información en el formato correcto debes ordenarla, en especial cuando te enfrentas a estos dos casos, que son los más frecuentes.

El primero es que tienes que trabajar con una base de datos que no construiste tú. Aquí unos ejemplos:

  • La autoridad de comercio exterior de tu país te entregó una tabla con los alimentos más exportados en los últimos cinco años.
  • Una organización de derechos humanos consolidó información sobre casos de maltrato infantil durante la pandemia por Covid-19.
  • Tu jefe te envió un documento Excel con los datos sobre compras y ventas de la organización en la que trabajas.
  • Descargaste la tabla de los Billboard Hot 100 que se encuentra en Wikipedia.

El segundo es que estés construyendo una base de datos desde cero.

Para ambos es clave identificar las variables que integran la información.

Tomemos el ejemplo de la tabla de datos de la autoridad de comercio. Supongamos que esto es lo que entregaron:

Producto Banano Café Arroz Manzanas Peras
Toneladas 120 100 82 32 15
Principal destino Estados Unidos Reino Unido Francia Estados Unidos Bélgica

Aquí tienes tres variables o categorías: Producto, Toneladas y Principal destino. Sabemos que lo son porque, más allá del nombre, son las que dan sentido a la información de la tabla. Solo tienen un problema: no están organizadas correctamente.

Estructura Tidy

La mejor forma es seguir la estructura Tidy. Esta consiste en que cada variable o categoría sea una columna, y cada dato que la compone se ubique en una fila.

Aplicando esto, el ejemplo anterior quedaría así:

Producto Toneladas Principal destino
Banano 120 Estados Unidos
Café 100 Reino Unido
Arroz 82 Francia
Manzanas 32 Estados Unidos
Peras 15 Bélgica

Aquí vemos que las categorías van al inicio de la columna, que no se modifican y que sirven como guía para ubicar un tipo determinado de información. Esto va a permitir filtrar los datos, analizarlos mejor y visualizarlos correctamente.

Miremos ahora cómo se podría hacer una tabla si estuvieras creando una base de datos desde cero. Pensemos que eres un historiador y estás investigando sobre los principales grupos políticos en una región.

La información que recopilaste tiene distintos atributos como el nombre del grupo, su líder y su ideología. Decidiste colocarla en columnas, mientras que ubicaste en las filas a los grupos que identificaste. Frente al nombre llenaste los campos así:

Nombre Comunista Socialista Fascista Líder
Azul x Juan
Verde x Pedro
Naranja x Alberto

Como ves, la información presentada de esta forma puede tornarse confusa y se dificulta el proceso para filtrar y visualizar.

Mira cómo cambia con la estructura Tidy:

Nombre Ideología Líder
Azul Socialista Juan
Verde Comunista Pedro
Naranja Socialista Alberto


Lo que acabamos de hacer aplica para casos sencillos y complejos, como organizar los registros de contratación pública que, como mínimo, tienen más de diez variables.

Una vez que usamos la estructura Tidy es necesario estandarizar los valores. Es decir, que la información en las filas siga un mismo formato. Por ejemplo, si tienes una variable con el género de las personas, debes decidir cómo se va a presentar la información. No puedes poner en una fila la letra F, en otra la palabra “Masculino” y en otra “Mujer”. Otro caso, con pesos. No puedes poner Kg, kilos y kilogramos. Debes elegir una sola opción porque aunque sabemos que significan lo mismo, para los computadores significan cosas distintas.

Unos últimos consejos

Con esta explicación ya puedes empezar a limpiar tus bases de datos. Ahora te dejamos unas recomendaciones finales para que las apliques en el proceso.

  • Los títulos de las columnas deben ocupar una sola fila.
  • Cada variable debe estar en una sola columna. Por ejemplo, debes registrar en una el nombre, en la otra el apellido, en la otra la edad de una persona.
  • Cada columna debe tener un mismo tipo de dato. Si se está hablando de nombres, fechas, edades o dinero, cada uno de ellos tienen tipos de datos diferentes. El primero es un tipo de dato alfabético, el segundo tiene formato de fecha y los dos últimos tienen datos numéricos. Esto puedes configurarlo en Excel o Google Sheets.
  • Cada registro de datos es una fila. Por ejemplo, si se tiene el precio de un producto, es ideal que en una columna se encuentre el número y en la otra el tipo de moneda. Así cada registro debe hacer crecer la tabla con nuevas filas y no con nuevas columnas.
  • No debe haber variables ocultas en las celdas.

Recuerda que al tener los datos limpios y ordenados se pueden interrogar y resolver preguntas con los mismos. Lo que te ofrece un número de posibilidades gigante para explorar y explicar tu mundo.

¡Esta entrada se basa en una guía detallada de Datasketch que publicaremos muy pronto! Sigue nuestras redes para estar al día.

Links recomendados

En estos cuatro videos podrás conocer más sobre Tidy Data, los principios de las bases de datos y cómo limpiarlos con Google Sheets.