A continuación, se presenta una lista de verificación de limpieza de datos en un orden secuencial recomendado. Cabe mencionar que no todos los proyectos son iguales; por lo tanto, las actividades podrían ampliarse, reducirse y el orden podría variar según el caso. Sin embargo, este listado puede servir como una base sólida para planificar las actividades de limpieza de datos:

Fuente de errores

Identifica el origen de inexactitudes en los datos.

Asignación correcta del tipo de datos

Verifica que cada campo tenga el tipo de dato adecuado.

Datos nulos

Detecta y gestiona los valores ausentes o indefinidos.

Datos faltantes o truncados

Completa o corrige datos incompletos.

Registros duplicados

Identifica y remueve entradas repetidas.

Caracteres extra

Quita símbolos o caracteres irrelevantes.

Espacios en blanco extra

Elimina espacios no necesarios en los datos.

Palabras mal escritas

Corrige errores ortográficos en entradas textuales.

Números mal escritos

Ajusta cifras incorrectas o mal formateadas.

Cadenas desordenadas (incoherentes)

Establece un formato coherente para textos.

Por ejemplo, supongamos que tienes un conjunto de datos de clientes que incluye un campo para "Estado Civil". Idealmente, este campo debería tener un conjunto limitado de opciones como "Soltero", "Casado", "Divorciado", etc. Sin embargo, debido a entradas manuales o a la fusión de distintas fuentes de datos, podrías encontrarte con una variedad de formas de referirse a la misma categoría, como:

  • "Soltero"
  • "SOLTERO"
  • "soltero"
  • "Single"
  • "No casado"

Formatos de fecha desordenados (incoherentes)

Uniformiza la representación de fechas.

Etiquetas de campos poco representativos

Renombra la cabecear de los campos o atributos para mejorar la claridad y la representatividad, facilitando el análisis y la interpretación de los datos.

Lógica de negocios

Comprueba que los datos sean coherentes con el conocimiento específico del negocio o sector, asegurando su relevancia y utilidad.

Por ejemplo, si estás trabajando con datos de una cadena de tiendas de ropa, la lógica de negocios podría incluir reglas como que las ventas no pueden ser negativas, que ciertos productos solo se venden en ciertas temporadas, o que las devoluciones deben ser siempre menores que las ventas totales. Comprobar la lógica de negocios implica revisar los datos para asegurarte de que estas reglas se cumplan, lo cual puede requerir un conocimiento profundo del negocio.