Link Search Menu Expand Document

Recomendaciones básicas para tener datos de calidad en hojas de cálculo


Las interfaces de hojas de cálculo (como Microsoft Excel y Google Spreadsheets, entre otras) son muy útiles para que cualquier usuario pueda almacenar, procesar y analizar datos fácilmente, siendo uno de los principales formatos usados a nivel mundial. Sin embargo, las mismas funcionalidades que las hacen tan sencillas de utilizar nos permiten llevar a cabo prácticas que afectan la calidad de los datos y obstaculizan su uso a largo plazo.


¿Para qué tener datos de calidad en hojas de cálculo?

  • Para poder almacenarlos en otros formatos y disminuir el espacio de almacenamiento que requieren.
  • Para poder procesarlos y analizarlos con herramientas como R, Stata, etc.
  • Para poder hacer visualizaciones de datos.
  • Para poder integrarlos con otros conjuntos de datos o bases de datos.
  • Para reducir el tiempo de limpieza y transformación requerido para su uso.


Los tres principios de tidy data:

La mayoría de los conjuntos de datos en hojas de cálculo son tablas compuestas de filas y columnas, donde las filas representan un registro u observación y las columnas representan un atributo, variable o campo. Según los tres principios de tidy data:

  1. Cada columna es un campo, atributo o variable.
  2. Cada fila es un registro u observación.
  3. Cada celda es un valor.

Imagen no localizada

Recomendaciones básicas:

  1. Sobre la estructura de los datos
    • La primera fila debe tener los nombres de los campos, atributos o variables (las etiquetas de cada columna).
    • Desde la segunda fila en adelante, sólo debe haber datos, pero nunca un encabezado.
    • No deben existir celdas vacías entre los encabezados y la primera fila de datos.
    • Los nombres de las columnas deben ser únicos.
    • Cada columna debe representar un atributo o campo.
    • La primera columna debe ser un identificador de registro único que permita identificar cada registro u observación, se recomienda usar el sufijo “id”.
    • Cada fila debe representar un registro u observación.
    • No utilizar más de un tipo de dato en cada columna. Ejemplo:
    • Imagen no localizada

      Ejemplo de una buena estructura:

      Imagen no localizada

  2. Sobre los nombres de las columnas o encabezados
    • Los encabezados de columna deben ser claros y auto-descriptivos, en la medida de lo posible.
    • No utilizar espacios en blanco. Utilizar puntos (.) o guion bajo (_) para separar las palabras.
    • No dejar espacios en blanco al inicio o final de las palabras.
    • No usar caracteres especiales como ?, $, *, +, #, (, ), -, /, }, {, >, <, entre otros.
    • No usar mayúsculas.
    • No usar acentos, ñ o diéresis (¨).
    • No utilizar números al inicio de los nombres de las columnas.
    • No duplicar los nombres de las columnas.

  3. Sobre el uso de las celdas:
    • No combinar/ fusionar celdas.
    • No ocultar filas o columnas.
    • No dejar filas vacías.
    • No dejar celdas vacías.
    • Cuando existan valores faltantes éstos se deben indicar de forma explícita (ya sea con NA, null, no disponible, etc.).
    • No utilizar el número cero (0) como equivalente a un valor faltante.
    • No utilizar comentarios o notas a las celdas.
    • No utilizar los distintos formatos disponibles para las celdas (fecha, porcentaje, moneda, etc.).
    • No hacer más de una tabla por pestaña u hoja de cálculo.
    • No guardar imágenes, gráficas u otros archivos sobre las celdas (ejemplo: evitar poner logos).

  4. Recomendaciones para distintos tipos de datos
    • Fechas y horas
      • La fecha debe estar en formato AAAA-MM-DD. El año siempre debe escribirse a cuatro dígitos.
      • Las horas deben estar en formato 24 horas HH:MM:SS
    • Números
      • El separador decimal debe ser el punto (.)
      • En números menores a 1 escribir el cero antes del punto.
      • No utilizar separadores de miles (como comas o espacios).
      • No agregar símbolos monetarios o de unidades de medición en la misma celda que los números. Utilizar una columna adicional para tal información o escribir en decimales en el caso de los porcentajes. Ejemplos:
      • Imagen no localizada Imagen no localizada
      • En los números negativos se debe incluir el símbolo menos “-” antes del número, sin dejar espacio en blanco entre ellos.
    • Texto
      • No usar diferentes palabras o frases para referirse a la misma cosa. Por ejemplo, utilizar “CDMX”, “Ciudad de México”, “Cd. de México” y “Cd. de Mex.” en la misma columna. Los catálogos te pueden ayudar a evitar este problema.
      • No agregar columnas para resúmenes de datos (como promedios o totales) en el cuerpo de la tabla. Utilizar una tabla separada para esto.

  5. Sobre cómo mejorar la captura de los datos
    • Utiliza validadores para reducir el número de errores humanos en la captura. Puedes utilizar menús desplegables o incluso utilizar herramientas como google forms, monday, SurveyMonkey, entre otras, que alimenten automáticamente una hoja de cálculo.
    • Cada pieza de información debe tener su propia celda. Es decir, es conveniente descomponer los campos en campos más pequeños para poder manejar la información más fácilmente.
    • Ejemplo de información que puede ser separada en elementos más pequeños:

      Imagen no localizada

      Ejemplo de la información descompuesta en pedazos pequeños:

      Imagen no localizada
    • No utilizar colores, negritas u otros formatos como una forma de registrar información, ya que si se exporta el archivo a otro formato se pierde el formato y con eso la información.
    • Ejemplo: No colorear celdas de un color para indicar que algo ya se atendió o algo es prioridad. En lugar de eso, poner una columna adicional para registrar esa información.

    • Transformar las fórmulas en valores estáticos después de que cumplan con su cometido (después de haber hecho los cálculos que se requerían), para evitar errores humanos al manejar los datos y poder guardarlos en distintos formatos. Sin embargo, es importante mantener un registro de las fórmulas utilizadas, ya sea en un diccionario de datos u otra documentación o en una columna extra dentro del conjunto de datos.

  6. Estandarización de algunos formatos de datos

    Para mejorar el análisis, compartición y comprensión de los datos es importante homologar el formato de aquellos datos que se repiten y usan frecuentemente, como los siguientes:

    • En todos los casos donde los datos puedan usar un catálogo, preferir el uso de catálogos consensados nacional o internacionalmente como, por ejemplo: Catálogo de unidades económicas del INEGI, Catálogo de Clasificación Internacional de Enfermedades de la OMS, etcétera.
    • Para el registro de datos geográficos, utilizar el Catálogo Único de Claves de Áreas Geoestadísticas Estatales, Municipales y Localidades
    • Se sugiere utilizar los códigos numéricos de estados, municipios y localidades, que asigna el catálogo.
    • Para datos geográficos que referencian otros países utilizar el ISO 3166-1 que proporciona códigos para nombres de países y otras dependencias administrativas.
    • Se recomienda usar el sistema de código de tres letras (alfa-3) para identificar los países, por ejemplo: BRA para Brasil, MEX para México, USA para Estados Unidos de América.
    • Para códigos de monedas internacionales utilizar el estándar ISO 4217, por ejemplo: CLP para los pesos chilenos,USD para los dólares estadounidenses o EUR para Euros.
    • Los códigos postales deben estar contenidos en un campo llamado "codigo_postal" y seguir el formato definido por el Servicio Postal Mexicano.
    • La columna que contenga el campo “codigo_postal” debe tener un formato de texto, para evitar su confusión con valores numéricos o su transformación en fechas.
    • Cuando se desagreguen datos por sexo, recordar que se refiere a la condición biológica que distingue a las personas entre “Hombre” y “Mujer” y no confundir con género (femenino, masculino, transgénero, no-binario, etcétera).
    • Cuando se codifique el sexo, utilizar H o 1 para hombre y M o 2 para mujer, tal como lo hace el INEGI.
    • Acompañar el archivo de hojas de cálculo con un Diccionario de Datos que permita entender a qué se refiere y qué valores puede tomar cada atributo o campo del conjunto de datos.
    • Por último, utilizar la codificación de caracteres según el esquema de formato UTF-8, ya que representa todos los caracteres necesarios para la escritura de los idiomas hablados en la actualidad.

Descarga aquí la guía : Guía práctica de Hojas de Cálculo