A continuación, se presenta una lista de verificación de limpieza de datos en un orden secuencial recomendado. Cabe mencionar que no todos los proyectos son iguales; por lo tanto, las actividades podrían ampliarse, reducirse y el orden podría variar según el caso. Sin embargo, este listado puede servir como una base sólida para planificar las actividades de limpieza de datos:
Fuente de errores
Identifica el origen de inexactitudes en los datos.
Asignación correcta del tipo de datos
Verifica que cada campo tenga el tipo de dato adecuado.
Datos nulos
Detecta y gestiona los valores ausentes o indefinidos.
Datos faltantes o truncados
Completa o corrige datos incompletos.
Registros duplicados
Identifica y remueve entradas repetidas.
Caracteres extra
Quita símbolos o caracteres irrelevantes.
Espacios en blanco extra
Elimina espacios no necesarios en los datos.
Palabras mal escritas
Corrige errores ortográficos en entradas textuales.
Números mal escritos
Ajusta cifras incorrectas o mal formateadas.
Cadenas desordenadas (incoherentes)
Establece un formato coherente para textos.
Por ejemplo, supongamos que tienes un conjunto de datos de clientes que incluye un campo para "Estado Civil". Idealmente, este campo debería tener un conjunto limitado de opciones como "Soltero", "Casado", "Divorciado", etc. Sin embargo, debido a entradas manuales o a la fusión de distintas fuentes de datos, podrías encontrarte con una variedad de formas de referirse a la misma categoría, como:
- "Soltero"
- "SOLTERO"
- "soltero"
- "Single"
- "No casado"
Formatos de fecha desordenados (incoherentes)
Uniformiza la representación de fechas.
Etiquetas de campos poco representativos
Renombra la cabecear de los campos o atributos para mejorar la claridad y la representatividad, facilitando el análisis y la interpretación de los datos.
Lógica de negocios
Comprueba que los datos sean coherentes con el conocimiento específico del negocio o sector, asegurando su relevancia y utilidad.
Por ejemplo, si estás trabajando con datos de una cadena de tiendas de ropa, la lógica de negocios podría incluir reglas como que las ventas no pueden ser negativas, que ciertos productos solo se venden en ciertas temporadas, o que las devoluciones deben ser siempre menores que las ventas totales. Comprobar la lógica de negocios implica revisar los datos para asegurarte de que estas reglas se cumplan, lo cual puede requerir un conocimiento profundo del negocio.
Arquitecto de profesión, especializado en infraestructura deportiva, gestión de proyectos de inversión pública y diseño accesible. He participado en proyectos para los Juegos Panamericanos 2019, el Centro de Alto Rendimiento de la VIDENA y para el Mundial de Futbol Sub-17 Perú 2019, 2021 y 2023, entre otros. Con interés en la divulgación y capacitación en el sector. Ver Perfil completo
Deja tu comentario