Glosario
Término
Definición
Accesibilidad El grado de sencillez y claridad con el que las personas usuarias pueden acceder, localizar, disponer, entender y obtener los datos. Según si están disponibles para la gama más amplia de usuarios para cualquier propósito, así como disponibles en un lenguaje y medios claros y asequibles. Acceso abierto El acceso gratuito, oportuno y sin restricciones a los datos y otros recursos de tecnologías de información por parte de todas las personas, mediante herramientas de software libre o código abierto. Cualquier tipo de contenido digital puede estar publicado en acceso abierto: textos, bases de datos, software, audio, vídeo y multimedia, entre otros. Agencia Digital de Innovación Pública (ADIP) Órgano desconcentrado del gobierno de la Ciudad de México, adscrito a la Jefatura de Gobierno, que tiene entre sus atribuciones diseñar, coordinar, supervisar y evaluar las políticas relacionadas con la gestión de datos, el gobierno abierto, el gobierno digital, la gobernanza tecnológica y la gobernanza de la conectividad y la gestión de la infraestructura. Almacén de datos Colección de un gran volumen de datos integrados, no volátil y variable en el tiempo, los cuales pueden provenir de numerosas fuentes, pueden estar organizados de manera centralizada o no centralizada. Anonimización de la información Técnica que supone el tratamiento de datos personales con el objeto de disociar de manera irreversible o definitiva la información personal de su titular a fin de que no pueda asociarse con él, ni permitir su identificación por su estructura, contenido o grado de desagregación. Es diferente a la técnica de testeo definida en la Ley de Transparencia, Acceso a la Información Pública y Rendición de Cuentas de la Ciudad de México. API (Application Programming Interface) Siglas en inglés de Interfaz de Programación de Aplicaciones. Es una interfaz de comunicación que conjunta especificaciones y procedimientos que permiten intercambiar, acceder y aprovechar los datos y funcionalidades de una aplicación existente.
Arquitectura de datos Se refiere a la alineación de los datos, sistemas de información e infraestructura tecnológica con la misión y objetivos estratégicos de cada organización, mediante especificaciones para el modelado y diseño de bases de datos que aseguren la integración e interoperabilidad de los datos.
Atributo Cualidad o característica de una observación o entidad dentro de una base de datos o conjunto de datos. Es sinónimo de campo o variable. Por ejemplo, la observación o entidad "Ciudadano" tiene los atributos "Edad", "Escolaridad", "Domicilio". Base de datos Serie de datos organizados y relacionados entre sí sobre un mismo contexto los cuales son recolectados y explotados por los sistemas de información. Se estructuran de acuerdo a diferentes modelos: relacionales, no relacionales, orientadas a objetos, etc. Generalmente, cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro. Ver: base de datos relacional; base de datos no relacional. Base de datos relacional También conocidas como Bases de Datos SQL -ya que es el lenguaje de comunicación estándar que utilizan-, son las bases de datos que almacenan datos estructurados en forma de tablas relacionadas entre si mediante columnas previamente definidas que permiten identificar cada registro de forma única, las cuales son conocidas como "claves". Las relaciones se definen a través de un esquema lógico pre-definido. Ejemplo de bases de datos relacionales: MySQL, PostgreSQL, SQL Server, MariaDB, entre otros. ver: MySQL y SQL. Base de datos no relacional También conocidas como NoSQL, son las Bases de Datos que permiten almacenar y consultar datos que siguen un modelo distinto a las relaciones entre tablas utilizadas en las bases de datos relacionales. Estas incluyen las bases de datos de grafos, bases de datos orientadas a documentos, entre otras. Ejemplos: Redis, MongoDB ver: Base de datos relacional Big Data Se refiere al enfoque de la ciencia de datos en la cual se analizan datos de gran volumen, ya sean estructurados o no estructurados, de gran complejidad y velocidad de crecimiento, por lo cual no pueden ser capturados, procesados o analizados mediante tecnologías y herramientas convencionales. Esta gran cantidad de datos tienen la potencialidad de identificar problemas y respuestas útiles a ellos, mediante búsqueda de tendencias u otros parámetros relevantes. Ciencia de datos Área de conocimiento que busca agregar valor a los datos por medio de la confluencia de análisis estadísticos, métodos computacionales y visualización de información, para el análisis de grandes volúmenes de datos. Código abierto También llamado Open source se refiere al modelo de desarrollo de un software en que el código de un programa (código fuente) se distribuye libremente (algunas veces de manera gratuita) para ser usado y modificado por las personas usuarias sin ninguna restricción. ver: código fuente. Código fuente Es el conjunto de líneas de texto, legibles por humanos y redactado en un lenguaje de programación determinado, con los comandos que debe seguir la computadora para ejecutar un programa. Conjunto de datos También llamado dataset, es una colección de datos organizados, que en su forma más básica se organiza como una matriz n*m, en la cual n es el número de observaciones y m es el número de atributos o columnas. Los formatos más comunes de almacenamiento de conjuntos de datos son xlsx y csv (archivos separados por comas). Ver csv. CSV Siglas en inglés de Comma Separated Values, es un formato de archivo que representa datos en forma de tabla, en las que las columnas se separan por comas y las filas por saltos de línea. Es uno de los formatos denominados "abiertos"; y actualmente es ampliamente utilizado como formato de intercambio para datos tabulares. ver: formatos abiertos. Data Lake Repositorio de datos centralizado que permite almacenar una gran cantidad de datos sin procesar, ya sean estructurados, semi-estructurados o no-estructurados, provenientes de distintas fuentes y para los cuales no se ha definido un propósito específico. No tiene restricciones fijas en cuanto al tamaño o formato, permitiendo así la integración de gran cantidad de datos. El Data Lake define el esquema de almacenamiento después de que los datos han sido almacenados. Utiliza procesos ELT (extract load transform). Data Warehouse Repositorio de datos centralizado que permite almacenar una gran cantidad de datos estructurados provenientes de distintas fuentes, los cuales ya fueron previamente procesados para un objetivo específico, facilitando su uso para la toma de decisiones estratégicas. Este sistema de almacenamiento permite consultar tanto los datos desagregados como resúmenes de ellos, facilitando su análisis. El Data Warehouse define el esquema de almacenamiento antes de que los datos sean almacenados. Utiliza procesos ETL (extract transform load).
Datos Aquellos registros, ya sean numéricos o textuales, que describen las características o atributos de cualquier evento, individuo o cosa y que son producidos y/o albergados digitalmente en diversos recursos de tecnologías de información, tales como bases de datos, conjuntos de datos y sistemas de información. Es el mínimo componente que, derivado de un proceso de análisis, permite producir información. Dataset Ver conjunto de datos. Datos abiertos Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, sin ningún tipo de restricción económica o de cualquier otro. Tienen las siguientes características:
a) Accesibles: Los datos están disponibles para la gama más amplia de usuarios, para cualquier propósito;
b) De libre uso: Citan la fuente de origen como único requerimiento para ser utilizados libremente;
c) En formatos abiertos: Los datos estarán disponibles con el conjunto de características técnicas y de presentación que corresponden a la estructura lógica usada para almacenar datos en un archivo digital, cuyas especificaciones técnicas están disponibles públicamente, que no suponen una dificultad de acceso y que su aplicación y reproducción no estén condicionadas a contraprestación alguna;
d) Gratuitos: Se obtienen sin entregar a cambio contraprestación alguna;
e) Integrales: Contienen el tema que describen a detalle y con los metadatos necesarios;
f) Legibles por máquinas: Deberán estar estructurados para ser procesados e interpretados por equipos electrónicos de manera automática;
g) No discriminatorios: Los datos están disponibles para cualquier persona, sin necesidad de registro;
h) Oportunos: Se publican de manera oportuna según las necesidades de información de las personas usuarias y son actualizados periódicamente conforme se generen;
i) Permanentes: Se conservan en el tiempo, para lo cual, las versiones históricas relevantes para uso público se mantendrán disponibles con identificadores adecuados al efecto; y
j) Primarios: Provienen de la fuente de origen con el máximo nivel de desagregación posible.
Datos públicos Son todos los datos en posesión de cualquier autoridad, entidad, órgano y organismo de los Poderes Ejecutivo, Legislativo y Judicial, órganos autónomos, partidos políticos, fideicomisos y fondos públicos, así como de cualquier persona física, moral o sindicato que reciba y ejerza recursos públicos o realice actos de autoridad en el ámbito federal, estatal y municipal.
Ver: Artículo 6o Constitución Política de los Estados Unidos Mexicanos y Ley de Transparencia, Acceso a la Información Pública y Rendición de Cuentas de la Ciudad de México Datos primarios También denominados "datos brutos" del inglés raw data, son aquellos datos recolectados directamente de su fuente, sin haber pasado por algún proceso de transformación, agregación y/o análisis. Datos estructurados Datos que tienen perfectamente definido la longitud, el formato y el tamaño de sus datos. Se encuentran organizados de acuerdo a un modelo previamente definido. Usualmente se encuentran en bases de datos relacionales u hojas de cálculo y suelen estar en formato tabular, es decir, organizados en filas, columnas y tablas, con títulos para cada categoría que permite identificarlos. Los datos estructurados están escritos de tal forma que los motores de búsqueda entienden el contenido. Para gestionar este tipo de datos se utiliza un tipo de lenguaje de programación estructurado, conocido como SQL (Structured Query Language) diseñado para administrar y recuperar información de sistemas de gestión de bases de datos relacionales.
Ver: SQL Datos no estructurados Datos que se caracterizan por no tener un formato específico; no se pueden usar en una base de datos tradicional ya que es imposible ajustarlos a las filas y columnas estandarizadas. Pueden ser textuales o no y generados por humanos o máquinas. También se pueden almacenar dentro de una base de datos no relacional o NoSQL.
Ejemplos de datos no estructurados:
Archivos de texto como: archivos de texto de Microsoft Word, PDF, presentaciones.
Correos electrónicos y Chats.
Datos de redes sociales como Facebook, Twitter, LinkedIn.
Archivos multimedia como MP3, imágenes digitales, audio y video.
Datos satelitales.
Fotos y videos generados por cámaras de seguridad.
Datos generados por sensores.
Ver: NoSQL Datos semi-estructurados Son una mezcla entre datos estructurados y no estructurados, ya que no presentan una estructura perfectamente definida pero si una organización definida en sus metadatos donde describen los objetos y sus relaciones. Ejemplo de datos semi-estructurados: HTML, XML o JSON. Datos maestros Datos que tienen una definición común en toda una organización, y que son críticos para el funcionamiento operativo de la misma. Estos datos usualmente son estáticos o cambian poco a lo largo del tiempo. En el contexto gubernamental, se puede referir a ciudadanos, programas, servicios, departamentos, organizaciones, proveedores, empleados, entre otros. Datos de referencia Son un tipo de datos maestros utilizados dentro de una organización para clasificar o caracterizar otros datos, los cuales permiten relacionar información dentro de la base de datos con información externa a esta. Estos definen los valores permitidos para ciertos datos. Los datos de referencia son usualmente sistematizados en "Catálogos" para la consulta de las personas usuarias.
Ejemplos de datos de referencia: estado civil, código de delito, entidad. Datos personales Son aquellos datos concernientes a una persona física, identificada o identificable. Los datos personales suponen la titularidad de la persona física a que se refieren. En consecuencia, implican cierto poder de control y disposición por parte de la persona concernida, así como el deber de confidencialidad de quienes son responsables de su tratamiento. Ver: Ley de Transparencia, Acceso a la Información Pública y Rendición de Cuentas de la Ciudad de México. Datos vinculados Del inglés linked data, también conocidos como datos enlazados, son un método de publicación de datos estructurados para que puedan ser interconectados mediante tecnologías y protocolos web como http, rdf y los identificadores URI. Uno de sus principales objetivos es hacer que la integración de datos sea automática, incluso para grandes conjuntos de datos. Los datos vinculados generalmente se representan mediante RDF Ver: HTTP, Ver: URI, Ver: RDF, Ver: URL Datum Término usado para datos geográficos, es un sistema de referencia espacial que describe la forma y el tamaño de la tierra y establece un origen para los sistemas de coordenadas o referencia. DCAT Siglas en inglés para Data Catalog Vocabulary, es un vocabulario controlado del marco RDF (Resource Discovery Framework) diseñado para facilitar la interoperabilidad de los catálogos de datos publicados en Internet, mediante el uso de un modelo y vocabulario estándar. Diccionario de datos Es un listado organizado de los nombres, definiciones y características de cada uno de los campos o atributos de una base de datos y/o conjunto de datos. ETL Siglas en inglés para extraer, transformar y cargar; es el proceso de compilación de datos a partir de un número ilimitado de fuentes, su posterior organización, limpieza, transformación y centralización en un único repositorio.
</span> Excel Es una hoja de calculo desarrollada por la empresa Microsoft y forma parte de la suite de software Microsoft Office. Permite realizar análisis básicos de datos, mediante herramientas gráficas, tablas calculares, entre otros. Firewall Programa informático que busca mantener la seguridad en los datos, el software y el hardware, mediante el control del acceso de una computadora a la red y de elementos de la red a la computadora. Formato abierto Formato para almacenar datos digitales que no impone restricciones, económicas o de otro tipo, sobre su uso y que puede ser procesado con al menos una herramienta de software libre y/o de código abierto. Los mas comunes son:
a) Archivos separados por comas (csv) para datos tabulares;
b) JSON y XML para datos estructurados;
c) SHP, GeoJson o KML para datos espaciales; y
d) ODT para documentos de texto.
Formato legible por máquina Datos en un formato que pueda ser procesado de forma automática por una computadora, por tanto deben ser datos estructurados como CSV, JSON, XML, etc. No todos los datos digitales son legibles por máquina, por ejemplo, las tablas presentadas en PDF. GeoJSON Es un formato de estándar abierto diseñado para representar características geográficas simples, junto con sus atributos no espaciales. Se basa en la notación de objetos JavaScript (JSON). Ver: formato abierto Gestión de datos Conjunto de prácticas, procesos y procedimientos, tanto tecnológicos y administrativos que las organizaciones (en este caso, los Entes Públicos) llevan a cabo con el objetivo controlar, proteger, aprovechar e incrementar el valor de los mismos. Gobierno abierto Modelo de relación entre los Entes, las autoridades del poder legislativo y judicial, así como con los órganos autónomos y los habitantes de la Ciudad de México, que tiene como finalidad la co-innovación tecnológica, la participación social y relacional que impulse la elaboración, implementación y evaluación de políticas públicas, servicios públicos y programas gubernamentales, de forma abierta y transparente. Gobierno digital Modelo de mejora y optimización de la calidad de los bienes y servicios de la Administración Pública de la Ciudad de México, a partir del uso estratégico de las tecnologías que permita facilitar a las personas el acceso, uso y realización de trámites y servicios públicos, de manera oportuna, simplificada, efectiva y con calidad, facilitando los vínculos de colaboración y participación social. Haciendo cumplir funciones de gobierno a partir del uso estratégico de las tecnologías de la Información y la Comunicación transparente; con el fin de establecer un modelo de mejora y optimización de la calidad de los bienes y servicios de la Administración Pública de la Ciudad de México, a partir del uso estratégico de las tecnologías que permita facilitar a las personas el acceso, uso y realización de trámites y servicios públicos, de manera oportuna, simplificada, efectiva y con calidad, facilitando los vínculos de colaboración y participación social. Gobierno electrónico El uso estratégico de las Tecnologías de la Información y Comunicación por la Administración Pública de la Ciudad de México para ofrecer servicios e información a las personas de manera receptiva, eficiente y efectiva, así como para relacionarse con estas para establecer vínculos de colaboración. Hipertexto Es un sistema no lineal de organización y presentación de datos que permite crear, agregar, enlazar y compartirlos desde diversas fuentes por medio de enlaces asociativos. Se basa en la vinculación de fragmentos textuales o gráficos a otros fragmentos mediante dichos enlaces. Permite a las personas usuarias acceder a la información desde cualquiera de los ítems relacionados, y no necesariamente de manera secuencial. Lo que convierte a un texto en hipertexto es la enorme capacidad que le dan los vínculos o enlaces dentro de una estructura de múltiples ramificaciones. Este tipo de sistema de organización de la información es sólo posible gracias a la utilización de un medio digital, un hipertexto solo puede realizarse y tomar forma gracias a los ordenadores. Hoja de cálculo Es un tipo de documento informático que permite manipular datos numéricos y alfanuméricos dispuestos en forma de tablas compuestas por celdas, las cuales se suelen organizar en una matriz de filas y columnas. El software más común para usar hojas de cálculo es Microsoft Excel. Una hoja de cálculo puede ser un conjunto de datos (dataset) pero no es una base de datos. Ver: conjunto de datos. HTML Siglas en inglés de HyperText Markup Language (lenguaje de marcado de hipertexto) es un sistema de lenguaje de marcado para la elaboración de páginas web que define el significado y la estructura del contenido web. El lenguaje "marcado" permite etiquetar texto, imágenes y otro contenido para mostrarlo en un navegador Web. Este marcado incluye elementos especiales predefinidos como <head>, <title>, <body>, <header>, <footer>, <article>, <section>, <p>, <div>, <span>, <img>, entre muchos otros. Ver: Hipertexto HTTP Siglas en inglés de HyperText Transfer Protocol, es un protocolo de transferencia de comunicación mediante hipertextos, como HTML. Sigue un modelo cliente-servidor, en el que el cliente establece una conexión realizando una petición a un servidor quien envía la respuesta. Este protocolo no guarda ningún dato o estado sobre las peticiones. Ver: HTML Información Todo archivo, registro o dato contenido en cualquier medio, documento o registro impreso, óptico, electrónico, magnético, químico, físico o biológico que se encuentre en poder de los Entes Públicos.
Ver: Ley de Transparencia, Acceso a la Información y Transparencia Gubernamental de la Ciudad de México. Internet de las Cosas Se refiere a la interconexión digital de objetos de uso diario con internet; en aquellos casos donde la conectividad de red y la capacidad de cómputo se extienden a objetos, sensores y artículos de uso diario que habitualmente no se consideran computadoras, permitiendo que estos dispositivos generen, intercambien y consuman datos con una mínima intervención humana. Interoperabilidad Capacidad técnica de distintos programas para intercambiar los datos a través de un conjunto común de formatos de intercambio, para leer y escribir los mismos formatos de archivo, y para usar los mismos protocolos. IoT Internet of Things. Ver Internet de las Cosas. Java Es un lenguaje de programación y una plataforma informática, se constituye como un lenguaje orientado a objetos derivado de C y C++, pero sin las características menos usadas y más confusas de estos, haciéndolo más sencillo. Su intención es permitir que los desarrolladores de aplicaciones escriban el programa una sola vez y lo ejecuten en cualquier dispositivo. JavaScript JavaScript es un lenguaje de programación interpretado, dialecto del estándar ECMAScript. Se define como orientado a objetos, basado en prototipos, imperativo, débilmente tipado y dinámico. JSON JavaScript Object Notation. https://www.json.org/json-en.html. Es una sintaxis para almacenar e intercambiar información basada en texto, es un formato ligero utilizado para el intercambio de datos entre programas y sistemas. Puede describir estructuras complejas de datos, es legible por máquinas, y es independiente de una plataforma o lenguaje de programación. JSON-LD JSON para datos enlazados (ver: linked data) es un método de codificación de datos enlazados usando JSON. Uno de sus objetivos es requerir el menor esfuerzo posible de los desarrolladores para transformar su JSON existente en JSON-LD. KML Siglas en inglés para Keyhole Markup Language. Lenguaje basado en XML para representar datos geográficos en tres dimensiones. Es un formato de archivo utilizado para mostrar datos geográficos en un navegador de la Tierra como Google Earth. ver: XML KMZ Es un formato de archivo para guardar datos geográficos dentro de un navegador terrestre, formado por un archivo KML principal y cero o más archivos complementarios empaquetados en formato .zip formando una única unidad denominada fichero. Cuando el archivo KMZ se descomprime, el archivo .kml principal y los archivos complementarios se separan según sus formatos originales. Google Earth y Google Maps pueden leer archivos KML y KMZ directamente y pueden guardar archivos en formato KMZ. Latitud Es una coordenada geográfica que especifica la distancia angular que hay desde un punto de la superficie de la tierra hasta el paralelo del ecuador; se mide en grados, minutos y segundos sobre los meridianos. Linked Data Ver: Datos vinculados Marco de descripción de recursos Ver RDF Metadatos Son los datos sobre otros datos, los cuales describen el contenido informativo, las características y propiedades de un recurso de tecnologías de información. MySQL Es un sistema gestor de bases de datos (SGBD) relacional basado en lenguaje de consulta estructurado (SQL, Structured Query Language). NoSQL Es un sistema gestor de bases de datos (SGBD) "No solo SQL" ya que no usan SQL como lenguaje principal de consultas. A menudo, se clasifican según su forma de almacenar los datos, y comprenden categorías como clave-valor, las implementaciones de BigTable, bases de datos documentales, y bases de datos orientadas a grafos. Nube Termino utilizado para describir la red enorme de servidores remotos de todo el mundo que están conectados para funcionar como un único ecosistema. Estos servidores están diseñados para almacenar y administrar datos, ejecutar aplicaciones o entregar contenido o servicios, como streaming de vídeos, correo web, software de ofimática o medios sociales. En lugar de acceder a archivos y datos desde un equipo personal o local, accede a ellos en línea desde cualquier dispositivo conectado a Internet. El acceso a la nube puede ser privado, público o híbrido. Ontología de datos Es la descripción de los conceptos y relaciones en un dominio de aplicación, descrito en un lenguaje equipado con una semántica formal compartida y consensuada, legible y utilizable por los ordenadores. Se compone de conceptos, relaciones, funciones, instancias y axiomas, que, en conjunto describen una conceptualización compartida sobre los datos. Las ontologías son consideradas como la columna vertebral de la Web Semántica y su objetivo principal es describir e identificar lo que cada uno de los conceptos significa y así utilizar los metadatos para integrar, compartir y procesar los datos. ver: Web semántica Persona Oficial de Información Persona servidora pública designada libremente por la persona Titular de los Entes, a propuesta de la Agencia para llevar a cabo la función de coordinar la implementación de las disposiciones en materia de gestión de datos. PDF Siglas en inglés de formato de documento portátil (Portable Document File), es un formato de estándar abierto para el almacenamiento de documentos digitales que permite presentar e intercambiar documentos de manera independiente al software, hardware o sistema operativo con que se consulten. Un archivo .pdf contiene datos no-estructurados y en general, no es una buena práctica publicar y/o intercambiar datos en este formato. PostgreSQL Es un sistema de gestión de bases de datos relacional orientado a objetos y de código abierto. Portal de datos abiertos Se refiere al portal de datos abiertos de la Ciudad de México disponible en: datos.cdmx.gob.mx Query Es un tipo de "pregunta" que se le hace a una base de datos con respecto a la información que contiene. Muchas bases de datos basan su funcionamiento en querys, como MySQL. Una API permite que una app envíe querys a una base de datos en la web, lo cual simplifica el proceso de procesamiento de datos. Ver: API R R es un lenguaje y ambiente de programación para computación estadística y gráficos, gratuito y de código abierto. Proporciona una amplia variedad de técnicas estadísticas (modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, entre otras) y gráficas, y es altamente extensible. https://www.r-project.org/about.html Raw Data Ver Datos primarios Recursos de tecnologías de información Son los conjuntos de datos, bases de datos, aplicaciones y sistemas de información digitales, tecnología (hardware, software, sistemas operativos, sistemas manejadores de bases de datos, redes, y demás aplicables) e instalaciones (recursos para alojar y dar soporte a los sistemas de información) en posesión de los Entes Registro (u observación) Cada uno de los elementos (sujetos, observaciones, hechos) dentro de una base de datos o conjunto de datos; usualmente escritas en filas o tuplas. Por ejemplo, en un conjunto de datos sobre beneficiarios de un programa social, existen 350 registros, que corresponden a cada uno de los beneficiarios (beneficiario1, beneficiario2...beneficiario 350). REST Siglas en inglés de transferencia de estado representacional (Representational State Transfer), es un estilo de arquitectura de software para sistemas hipermedia distribuidos, como la World Wide Web, basada en el protocolo HTTP. Sirve para obtener y generar datos, devolviéndolos en formatos muy específicos como XML y JSON. RDF Siglas en inglés de Marco de descripción de recursos (Resource Description Framework). Es la forma de describir los datos vinculados. Los datos en RDF se estructuran en forma de "tripletes"; es decir, cada dato elementos: sujeto, predicado y objeto. Se almacenan en bases de datos especializadas llamadas triplestore o almacén de RDF. RDF Schema RDF Schema es una extensión del vocabulario básico de RDF. Proporciona un vocabulario para modelar datos. Servicio Web Es un servicio basado en la red que permite la interacción ordenada hacia un sistema informático, ya sea de forma manual o automatizada, con el propósito de leer o actualizar una base de datos de manera segura y controlada. Shapefile Es un formato de archivo de datos espaciales desarrollado por la compañía ESRI, dueña de los softwares Arc/info o ArGis. Se utiliza para almacenar la ubicación geométrica y la información de atributos de las entidades geográficas. Las entidades geográficas de un shapefile se pueden representar por medio de puntos, líneas o polígonos (áreas). Sistema de información Conjunto integrado de componentes de recursos de tecnologías de la información* que tiene como objeto recolectar, almacenar y/o procesar datos.
Suelen consultar o escribir información en una base de datos. Ejemplos: Sistema de Control de Gestión; Sistema de Información, Evaluación y Seguimiento; Sistema Integral de Administración de Personal.
Sistema gestor de base de datos Es un conjunto de programas que permiten el almacenamiento, modificación y extracción de la información en una base de datos al servir de interfaz entre ésta, la persona usuaria y las aplicaciones. Existen distintos tipos de SGBD: 1) según el modelo de datos, pueden ser relacionales, en red, jerárquicos u orientados a objetos; 2) en función de la propiedad, los hay propietarios y no propietarios; 3) en cuanto al número de usuarios pueden ser mono-usuarios y distribuidos; y 4) en función de los sitios de operación, pueden ser centralizados o distribuidos. SIG Siglas par Sistema de Información Geográfica. Ver: Sistema de Información Geográfica Sistema de información geográfica
Un sistema de información geográfica (SIG) es un sistema diseñado para almacenar, administrar, capturar, manipular, analizar, y presentar datos espaciales o geográficos. SPARQL
Lenguaje estandarizado para la consulta de grafos RDF, de manera que permite traducir datos en grafo en datos normalizados en formato tabular, es decir, distribuidos en filas y columnas, para que se puedan abrir en programas como Excel o importar a otros programas de visualización. SQL Siglas en inglés de lenguaje de consulta estructurada (Structured Query Language), es un lenguaje de dominio específico utilizado en programación, diseñado para administrar y recuperar información de sistemas gestores de bases de datos relacionales. Stata Es un paquete de software estadístico que permite, entre otras, la gestión de datos, análisis estadístico, trazado de gráficos y simulaciones. triplestore Ver Almacén de RDF. TSV Tab Separated Values. Es un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por tabulaciones y las filas por saltos de línea. URI Siglas en inglés para Identificador uniforme de recursos (Uniform Resource Identifier) define un esquema simple y extensible para la identificación única en la red de recursos abstractos o físicos (reales). Un recurso puede ser cualquier objeto con una identidad clara (según el contexto de aplicación). URL Siglas en inglés para Localizador uniforme de recurso (Uniform Resource Locator) es un identificador de recursos uniforme (URI) localizado en la web; es decir, es la dirección específica que se asigna a cada uno de los recursos disponibles en la red (páginas, sitios, documentos, archivos, carpetas) con la finalidad de que estos puedan ser localizados o identificados. Variable ver: atributo Visualización de datos Es la presentación de información y datos en un formato gráfico, que tiene como objetivo la interpretación y construcción de significado a partir de los datos y la comunicación a partir del análisis presentado visualmente que ayude a comprender conceptos o identificar nuevos patrones. W3C World Wide Web Consortium. Consorcio internacional que genera recomendaciones y estándares para asegurar el funcionamiento de la World Wide Web a largo plazo. World Wide Web Red informática mundial. De acuerdo al W3C, es un espacio de información en el cual ítems de interés, denominados recursos, se identifican mediante identificadores uniformes de recurso (URI por sus siglas en inglés). Web semántica Es un esfuerzo colaborativo liderado por el W3C con la participación de numerosos miembros del sector académico, público y privado, que busca en crear una red mundial de datos. Consiste en dos elementos:
1) Formatos comunes para integrar y combinar datos de distintas fuentes
2) Lenguajes comunes para nombrar los datos XHTML Es un lenguaje de marcado que permite editar webs. Es básicamente HTLM expresado como XML válido. XLS Es un archivo de plantilla de cálculo y de formato propietario Microsoft Excel que sirve para almacenar hojas de cálculo en las cuales se pueden hacer cálculos básicos, herramientas gráficas y usar un lenguaje de programación llamado Visual Basic. XLSX Es un archivo de hoja de cálculo y de formato propietario Microsoft, de especificación abierta. XML Siglas en inglés de Extensible Markup Language. Es un lenguaje estructurado mediante etiquetas o marcas que aportan datos o información que se desea procesar. Fue desarrollado por la World Wide Web Consortium (W3C) y es muy útil para representar datos estructurados. XML Schema Lenguaje para definir la estructura de los documentos XML.
Término | Definición |
---|---|
Accesibilidad | El grado de sencillez y claridad con el que las personas usuarias pueden acceder, localizar, disponer, entender y obtener los datos. Según si están disponibles para la gama más amplia de usuarios para cualquier propósito, así como disponibles en un lenguaje y medios claros y asequibles. |
Acceso abierto | El acceso gratuito, oportuno y sin restricciones a los datos y otros recursos de tecnologías de información por parte de todas las personas, mediante herramientas de software libre o código abierto. Cualquier tipo de contenido digital puede estar publicado en acceso abierto: textos, bases de datos, software, audio, vídeo y multimedia, entre otros. |
Agencia Digital de Innovación Pública (ADIP) | Órgano desconcentrado del gobierno de la Ciudad de México, adscrito a la Jefatura de Gobierno, que tiene entre sus atribuciones diseñar, coordinar, supervisar y evaluar las políticas relacionadas con la gestión de datos, el gobierno abierto, el gobierno digital, la gobernanza tecnológica y la gobernanza de la conectividad y la gestión de la infraestructura. |
Almacén de datos | Colección de un gran volumen de datos integrados, no volátil y variable en el tiempo, los cuales pueden provenir de numerosas fuentes, pueden estar organizados de manera centralizada o no centralizada. |
Anonimización de la información | Técnica que supone el tratamiento de datos personales con el objeto de disociar de manera irreversible o definitiva la información personal de su titular a fin de que no pueda asociarse con él, ni permitir su identificación por su estructura, contenido o grado de desagregación. Es diferente a la técnica de testeo definida en la Ley de Transparencia, Acceso a la Información Pública y Rendición de Cuentas de la Ciudad de México. |
API (Application Programming Interface) | Siglas en inglés de Interfaz de Programación de Aplicaciones. Es una interfaz de comunicación que conjunta especificaciones y procedimientos que permiten intercambiar, acceder y aprovechar los datos y funcionalidades de una aplicación existente. |
Arquitectura de datos | Se refiere a la alineación de los datos, sistemas de información e infraestructura tecnológica con la misión y objetivos estratégicos de cada organización, mediante especificaciones para el modelado y diseño de bases de datos que aseguren la integración e interoperabilidad de los datos. |
Atributo | Cualidad o característica de una observación o entidad dentro de una base de datos o conjunto de datos. Es sinónimo de campo o variable. Por ejemplo, la observación o entidad "Ciudadano" tiene los atributos "Edad", "Escolaridad", "Domicilio". |
Base de datos | Serie de datos organizados y relacionados entre sí sobre un mismo contexto los cuales son recolectados y explotados por los sistemas de información. Se estructuran de acuerdo a diferentes modelos: relacionales, no relacionales, orientadas a objetos, etc. Generalmente, cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro. Ver: base de datos relacional; base de datos no relacional. |
Base de datos relacional | También conocidas como Bases de Datos SQL -ya que es el lenguaje de comunicación estándar que utilizan-, son las bases de datos que almacenan datos estructurados en forma de tablas relacionadas entre si mediante columnas previamente definidas que permiten identificar cada registro de forma única, las cuales son conocidas como "claves". Las relaciones se definen a través de un esquema lógico pre-definido. Ejemplo de bases de datos relacionales: MySQL, PostgreSQL, SQL Server, MariaDB, entre otros. ver: MySQL y SQL. |
Base de datos no relacional | También conocidas como NoSQL, son las Bases de Datos que permiten almacenar y consultar datos que siguen un modelo distinto a las relaciones entre tablas utilizadas en las bases de datos relacionales. Estas incluyen las bases de datos de grafos, bases de datos orientadas a documentos, entre otras. Ejemplos: Redis, MongoDB ver: Base de datos relacional |
Big Data | Se refiere al enfoque de la ciencia de datos en la cual se analizan datos de gran volumen, ya sean estructurados o no estructurados, de gran complejidad y velocidad de crecimiento, por lo cual no pueden ser capturados, procesados o analizados mediante tecnologías y herramientas convencionales. Esta gran cantidad de datos tienen la potencialidad de identificar problemas y respuestas útiles a ellos, mediante búsqueda de tendencias u otros parámetros relevantes. |
Ciencia de datos | Área de conocimiento que busca agregar valor a los datos por medio de la confluencia de análisis estadísticos, métodos computacionales y visualización de información, para el análisis de grandes volúmenes de datos. |
Código abierto | También llamado Open source se refiere al modelo de desarrollo de un software en que el código de un programa (código fuente) se distribuye libremente (algunas veces de manera gratuita) para ser usado y modificado por las personas usuarias sin ninguna restricción. ver: código fuente. |
Código fuente | Es el conjunto de líneas de texto, legibles por humanos y redactado en un lenguaje de programación determinado, con los comandos que debe seguir la computadora para ejecutar un programa. |
Conjunto de datos | También llamado dataset, es una colección de datos organizados, que en su forma más básica se organiza como una matriz n*m, en la cual n es el número de observaciones y m es el número de atributos o columnas. Los formatos más comunes de almacenamiento de conjuntos de datos son xlsx y csv (archivos separados por comas). Ver csv. |
CSV | Siglas en inglés de Comma Separated Values, es un formato de archivo que representa datos en forma de tabla, en las que las columnas se separan por comas y las filas por saltos de línea. Es uno de los formatos denominados "abiertos"; y actualmente es ampliamente utilizado como formato de intercambio para datos tabulares. ver: formatos abiertos. |
Data Lake | Repositorio de datos centralizado que permite almacenar una gran cantidad de datos sin procesar, ya sean estructurados, semi-estructurados o no-estructurados, provenientes de distintas fuentes y para los cuales no se ha definido un propósito específico. No tiene restricciones fijas en cuanto al tamaño o formato, permitiendo así la integración de gran cantidad de datos. El Data Lake define el esquema de almacenamiento después de que los datos han sido almacenados. Utiliza procesos ELT (extract load transform). |
Data Warehouse | Repositorio de datos centralizado que permite almacenar una gran cantidad de datos estructurados provenientes de distintas fuentes, los cuales ya fueron previamente procesados para un objetivo específico, facilitando su uso para la toma de decisiones estratégicas. Este sistema de almacenamiento permite consultar tanto los datos desagregados como resúmenes de ellos, facilitando su análisis. El Data Warehouse define el esquema de almacenamiento antes de que los datos sean almacenados. Utiliza procesos ETL (extract transform load). |
Datos | Aquellos registros, ya sean numéricos o textuales, que describen las características o atributos de cualquier evento, individuo o cosa y que son producidos y/o albergados digitalmente en diversos recursos de tecnologías de información, tales como bases de datos, conjuntos de datos y sistemas de información. Es el mínimo componente que, derivado de un proceso de análisis, permite producir información. |
Dataset | Ver conjunto de datos. |
Datos abiertos | Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, sin ningún tipo de restricción económica o de cualquier otro. Tienen las siguientes características: a) Accesibles: Los datos están disponibles para la gama más amplia de usuarios, para cualquier propósito; b) De libre uso: Citan la fuente de origen como único requerimiento para ser utilizados libremente; c) En formatos abiertos: Los datos estarán disponibles con el conjunto de características técnicas y de presentación que corresponden a la estructura lógica usada para almacenar datos en un archivo digital, cuyas especificaciones técnicas están disponibles públicamente, que no suponen una dificultad de acceso y que su aplicación y reproducción no estén condicionadas a contraprestación alguna; d) Gratuitos: Se obtienen sin entregar a cambio contraprestación alguna; e) Integrales: Contienen el tema que describen a detalle y con los metadatos necesarios; f) Legibles por máquinas: Deberán estar estructurados para ser procesados e interpretados por equipos electrónicos de manera automática; g) No discriminatorios: Los datos están disponibles para cualquier persona, sin necesidad de registro; h) Oportunos: Se publican de manera oportuna según las necesidades de información de las personas usuarias y son actualizados periódicamente conforme se generen; i) Permanentes: Se conservan en el tiempo, para lo cual, las versiones históricas relevantes para uso público se mantendrán disponibles con identificadores adecuados al efecto; y j) Primarios: Provienen de la fuente de origen con el máximo nivel de desagregación posible. |
Datos públicos | Son todos los datos en posesión de cualquier autoridad, entidad, órgano y organismo de los Poderes Ejecutivo, Legislativo y Judicial, órganos autónomos, partidos políticos, fideicomisos y fondos públicos, así como de cualquier persona física, moral o sindicato que reciba y ejerza recursos públicos o realice actos de autoridad en el ámbito federal, estatal y municipal. Ver: Artículo 6o Constitución Política de los Estados Unidos Mexicanos y Ley de Transparencia, Acceso a la Información Pública y Rendición de Cuentas de la Ciudad de México |
Datos primarios | También denominados "datos brutos" del inglés raw data, son aquellos datos recolectados directamente de su fuente, sin haber pasado por algún proceso de transformación, agregación y/o análisis. |
Datos estructurados | Datos que tienen perfectamente definido la longitud, el formato y el tamaño de sus datos. Se encuentran organizados de acuerdo a un modelo previamente definido. Usualmente se encuentran en bases de datos relacionales u hojas de cálculo y suelen estar en formato tabular, es decir, organizados en filas, columnas y tablas, con títulos para cada categoría que permite identificarlos. Los datos estructurados están escritos de tal forma que los motores de búsqueda entienden el contenido. Para gestionar este tipo de datos se utiliza un tipo de lenguaje de programación estructurado, conocido como SQL (Structured Query Language) diseñado para administrar y recuperar información de sistemas de gestión de bases de datos relacionales. Ver: SQL |
Datos no estructurados | Datos que se caracterizan por no tener un formato específico; no se pueden usar en una base de datos tradicional ya que es imposible ajustarlos a las filas y columnas estandarizadas. Pueden ser textuales o no y generados por humanos o máquinas. También se pueden almacenar dentro de una base de datos no relacional o NoSQL. Ejemplos de datos no estructurados: Archivos de texto como: archivos de texto de Microsoft Word, PDF, presentaciones. Correos electrónicos y Chats. Datos de redes sociales como Facebook, Twitter, LinkedIn. Archivos multimedia como MP3, imágenes digitales, audio y video. Datos satelitales. Fotos y videos generados por cámaras de seguridad. Datos generados por sensores. Ver: NoSQL |
Datos semi-estructurados | Son una mezcla entre datos estructurados y no estructurados, ya que no presentan una estructura perfectamente definida pero si una organización definida en sus metadatos donde describen los objetos y sus relaciones. Ejemplo de datos semi-estructurados: HTML, XML o JSON. |
Datos maestros | Datos que tienen una definición común en toda una organización, y que son críticos para el funcionamiento operativo de la misma. Estos datos usualmente son estáticos o cambian poco a lo largo del tiempo. En el contexto gubernamental, se puede referir a ciudadanos, programas, servicios, departamentos, organizaciones, proveedores, empleados, entre otros. |
Datos de referencia | Son un tipo de datos maestros utilizados dentro de una organización para clasificar o caracterizar otros datos, los cuales permiten relacionar información dentro de la base de datos con información externa a esta. Estos definen los valores permitidos para ciertos datos. Los datos de referencia son usualmente sistematizados en "Catálogos" para la consulta de las personas usuarias. Ejemplos de datos de referencia: estado civil, código de delito, entidad. |
Datos personales | Son aquellos datos concernientes a una persona física, identificada o identificable. Los datos personales suponen la titularidad de la persona física a que se refieren. En consecuencia, implican cierto poder de control y disposición por parte de la persona concernida, así como el deber de confidencialidad de quienes son responsables de su tratamiento. Ver: Ley de Transparencia, Acceso a la Información Pública y Rendición de Cuentas de la Ciudad de México. |
Datos vinculados | Del inglés linked data, también conocidos como datos enlazados, son un método de publicación de datos estructurados para que puedan ser interconectados mediante tecnologías y protocolos web como http, rdf y los identificadores URI. Uno de sus principales objetivos es hacer que la integración de datos sea automática, incluso para grandes conjuntos de datos. Los datos vinculados generalmente se representan mediante RDF Ver: HTTP, Ver: URI, Ver: RDF, Ver: URL |
Datum | Término usado para datos geográficos, es un sistema de referencia espacial que describe la forma y el tamaño de la tierra y establece un origen para los sistemas de coordenadas o referencia. |
DCAT | Siglas en inglés para Data Catalog Vocabulary, es un vocabulario controlado del marco RDF (Resource Discovery Framework) diseñado para facilitar la interoperabilidad de los catálogos de datos publicados en Internet, mediante el uso de un modelo y vocabulario estándar. |
Diccionario de datos | Es un listado organizado de los nombres, definiciones y características de cada uno de los campos o atributos de una base de datos y/o conjunto de datos. |
ETL | Siglas en inglés para extraer, transformar y cargar; es el proceso de compilación de datos a partir de un número ilimitado de fuentes, su posterior organización, limpieza, transformación y centralización en un único repositorio. </span> |
Excel | Es una hoja de calculo desarrollada por la empresa Microsoft y forma parte de la suite de software Microsoft Office. Permite realizar análisis básicos de datos, mediante herramientas gráficas, tablas calculares, entre otros. |
Firewall | Programa informático que busca mantener la seguridad en los datos, el software y el hardware, mediante el control del acceso de una computadora a la red y de elementos de la red a la computadora. |
Formato abierto | Formato para almacenar datos digitales que no impone restricciones, económicas o de otro tipo, sobre su uso y que puede ser procesado con al menos una herramienta de software libre y/o de código abierto. Los mas comunes son: a) Archivos separados por comas (csv) para datos tabulares; b) JSON y XML para datos estructurados; c) SHP, GeoJson o KML para datos espaciales; y d) ODT para documentos de texto. |
Formato legible por máquina | Datos en un formato que pueda ser procesado de forma automática por una computadora, por tanto deben ser datos estructurados como CSV, JSON, XML, etc. No todos los datos digitales son legibles por máquina, por ejemplo, las tablas presentadas en PDF. |
GeoJSON | Es un formato de estándar abierto diseñado para representar características geográficas simples, junto con sus atributos no espaciales. Se basa en la notación de objetos JavaScript (JSON). Ver: formato abierto |
Gestión de datos | Conjunto de prácticas, procesos y procedimientos, tanto tecnológicos y administrativos que las organizaciones (en este caso, los Entes Públicos) llevan a cabo con el objetivo controlar, proteger, aprovechar e incrementar el valor de los mismos. |
Gobierno abierto | Modelo de relación entre los Entes, las autoridades del poder legislativo y judicial, así como con los órganos autónomos y los habitantes de la Ciudad de México, que tiene como finalidad la co-innovación tecnológica, la participación social y relacional que impulse la elaboración, implementación y evaluación de políticas públicas, servicios públicos y programas gubernamentales, de forma abierta y transparente. |
Gobierno digital | Modelo de mejora y optimización de la calidad de los bienes y servicios de la Administración Pública de la Ciudad de México, a partir del uso estratégico de las tecnologías que permita facilitar a las personas el acceso, uso y realización de trámites y servicios públicos, de manera oportuna, simplificada, efectiva y con calidad, facilitando los vínculos de colaboración y participación social. Haciendo cumplir funciones de gobierno a partir del uso estratégico de las tecnologías de la Información y la Comunicación transparente; con el fin de establecer un modelo de mejora y optimización de la calidad de los bienes y servicios de la Administración Pública de la Ciudad de México, a partir del uso estratégico de las tecnologías que permita facilitar a las personas el acceso, uso y realización de trámites y servicios públicos, de manera oportuna, simplificada, efectiva y con calidad, facilitando los vínculos de colaboración y participación social. |
Gobierno electrónico | El uso estratégico de las Tecnologías de la Información y Comunicación por la Administración Pública de la Ciudad de México para ofrecer servicios e información a las personas de manera receptiva, eficiente y efectiva, así como para relacionarse con estas para establecer vínculos de colaboración. |
Hipertexto | Es un sistema no lineal de organización y presentación de datos que permite crear, agregar, enlazar y compartirlos desde diversas fuentes por medio de enlaces asociativos. Se basa en la vinculación de fragmentos textuales o gráficos a otros fragmentos mediante dichos enlaces. Permite a las personas usuarias acceder a la información desde cualquiera de los ítems relacionados, y no necesariamente de manera secuencial. Lo que convierte a un texto en hipertexto es la enorme capacidad que le dan los vínculos o enlaces dentro de una estructura de múltiples ramificaciones. Este tipo de sistema de organización de la información es sólo posible gracias a la utilización de un medio digital, un hipertexto solo puede realizarse y tomar forma gracias a los ordenadores. |
Hoja de cálculo | Es un tipo de documento informático que permite manipular datos numéricos y alfanuméricos dispuestos en forma de tablas compuestas por celdas, las cuales se suelen organizar en una matriz de filas y columnas. El software más común para usar hojas de cálculo es Microsoft Excel. Una hoja de cálculo puede ser un conjunto de datos (dataset) pero no es una base de datos. Ver: conjunto de datos. |
HTML | Siglas en inglés de HyperText Markup Language (lenguaje de marcado de hipertexto) es un sistema de lenguaje de marcado para la elaboración de páginas web que define el significado y la estructura del contenido web. El lenguaje "marcado" permite etiquetar texto, imágenes y otro contenido para mostrarlo en un navegador Web. Este marcado incluye elementos especiales predefinidos como <head>, <title>, <body>, <header>, <footer>, <article>, <section>, <p>, <div>, <span>, <img>, entre muchos otros. Ver: Hipertexto |
HTTP | Siglas en inglés de HyperText Transfer Protocol, es un protocolo de transferencia de comunicación mediante hipertextos, como HTML. Sigue un modelo cliente-servidor, en el que el cliente establece una conexión realizando una petición a un servidor quien envía la respuesta. Este protocolo no guarda ningún dato o estado sobre las peticiones. Ver: HTML |
Información | Todo archivo, registro o dato contenido en cualquier medio, documento o registro impreso, óptico, electrónico, magnético, químico, físico o biológico que se encuentre en poder de los Entes Públicos. Ver: Ley de Transparencia, Acceso a la Información y Transparencia Gubernamental de la Ciudad de México. |
Internet de las Cosas | Se refiere a la interconexión digital de objetos de uso diario con internet; en aquellos casos donde la conectividad de red y la capacidad de cómputo se extienden a objetos, sensores y artículos de uso diario que habitualmente no se consideran computadoras, permitiendo que estos dispositivos generen, intercambien y consuman datos con una mínima intervención humana. |
Interoperabilidad | Capacidad técnica de distintos programas para intercambiar los datos a través de un conjunto común de formatos de intercambio, para leer y escribir los mismos formatos de archivo, y para usar los mismos protocolos. |
IoT | Internet of Things. Ver Internet de las Cosas. |
Java | Es un lenguaje de programación y una plataforma informática, se constituye como un lenguaje orientado a objetos derivado de C y C++, pero sin las características menos usadas y más confusas de estos, haciéndolo más sencillo. Su intención es permitir que los desarrolladores de aplicaciones escriban el programa una sola vez y lo ejecuten en cualquier dispositivo. |
JavaScript | JavaScript es un lenguaje de programación interpretado, dialecto del estándar ECMAScript. Se define como orientado a objetos, basado en prototipos, imperativo, débilmente tipado y dinámico. |
JSON | JavaScript Object Notation. https://www.json.org/json-en.html. Es una sintaxis para almacenar e intercambiar información basada en texto, es un formato ligero utilizado para el intercambio de datos entre programas y sistemas. Puede describir estructuras complejas de datos, es legible por máquinas, y es independiente de una plataforma o lenguaje de programación. |
JSON-LD | JSON para datos enlazados (ver: linked data) es un método de codificación de datos enlazados usando JSON. Uno de sus objetivos es requerir el menor esfuerzo posible de los desarrolladores para transformar su JSON existente en JSON-LD. |
KML | Siglas en inglés para Keyhole Markup Language. Lenguaje basado en XML para representar datos geográficos en tres dimensiones. Es un formato de archivo utilizado para mostrar datos geográficos en un navegador de la Tierra como Google Earth. ver: XML |
KMZ | Es un formato de archivo para guardar datos geográficos dentro de un navegador terrestre, formado por un archivo KML principal y cero o más archivos complementarios empaquetados en formato .zip formando una única unidad denominada fichero. Cuando el archivo KMZ se descomprime, el archivo .kml principal y los archivos complementarios se separan según sus formatos originales. Google Earth y Google Maps pueden leer archivos KML y KMZ directamente y pueden guardar archivos en formato KMZ. |
Latitud | Es una coordenada geográfica que especifica la distancia angular que hay desde un punto de la superficie de la tierra hasta el paralelo del ecuador; se mide en grados, minutos y segundos sobre los meridianos. |
Linked Data | Ver: Datos vinculados |
Marco de descripción de recursos | Ver RDF |
Metadatos | Son los datos sobre otros datos, los cuales describen el contenido informativo, las características y propiedades de un recurso de tecnologías de información. |
MySQL | Es un sistema gestor de bases de datos (SGBD) relacional basado en lenguaje de consulta estructurado (SQL, Structured Query Language). |
NoSQL | Es un sistema gestor de bases de datos (SGBD) "No solo SQL" ya que no usan SQL como lenguaje principal de consultas. A menudo, se clasifican según su forma de almacenar los datos, y comprenden categorías como clave-valor, las implementaciones de BigTable, bases de datos documentales, y bases de datos orientadas a grafos. |
Nube | Termino utilizado para describir la red enorme de servidores remotos de todo el mundo que están conectados para funcionar como un único ecosistema. Estos servidores están diseñados para almacenar y administrar datos, ejecutar aplicaciones o entregar contenido o servicios, como streaming de vídeos, correo web, software de ofimática o medios sociales. En lugar de acceder a archivos y datos desde un equipo personal o local, accede a ellos en línea desde cualquier dispositivo conectado a Internet. El acceso a la nube puede ser privado, público o híbrido. |
Ontología de datos | Es la descripción de los conceptos y relaciones en un dominio de aplicación, descrito en un lenguaje equipado con una semántica formal compartida y consensuada, legible y utilizable por los ordenadores. Se compone de conceptos, relaciones, funciones, instancias y axiomas, que, en conjunto describen una conceptualización compartida sobre los datos. Las ontologías son consideradas como la columna vertebral de la Web Semántica y su objetivo principal es describir e identificar lo que cada uno de los conceptos significa y así utilizar los metadatos para integrar, compartir y procesar los datos. ver: Web semántica |
Persona Oficial de Información | Persona servidora pública designada libremente por la persona Titular de los Entes, a propuesta de la Agencia para llevar a cabo la función de coordinar la implementación de las disposiciones en materia de gestión de datos. |
Siglas en inglés de formato de documento portátil (Portable Document File), es un formato de estándar abierto para el almacenamiento de documentos digitales que permite presentar e intercambiar documentos de manera independiente al software, hardware o sistema operativo con que se consulten. Un archivo .pdf contiene datos no-estructurados y en general, no es una buena práctica publicar y/o intercambiar datos en este formato. | |
PostgreSQL | Es un sistema de gestión de bases de datos relacional orientado a objetos y de código abierto. |
Portal de datos abiertos | Se refiere al portal de datos abiertos de la Ciudad de México disponible en: datos.cdmx.gob.mx |
Query | Es un tipo de "pregunta" que se le hace a una base de datos con respecto a la información que contiene. Muchas bases de datos basan su funcionamiento en querys, como MySQL. Una API permite que una app envíe querys a una base de datos en la web, lo cual simplifica el proceso de procesamiento de datos. Ver: API |
R | R es un lenguaje y ambiente de programación para computación estadística y gráficos, gratuito y de código abierto. Proporciona una amplia variedad de técnicas estadísticas (modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, entre otras) y gráficas, y es altamente extensible. https://www.r-project.org/about.html |
Raw Data | Ver Datos primarios |
Recursos de tecnologías de información | Son los conjuntos de datos, bases de datos, aplicaciones y sistemas de información digitales, tecnología (hardware, software, sistemas operativos, sistemas manejadores de bases de datos, redes, y demás aplicables) e instalaciones (recursos para alojar y dar soporte a los sistemas de información) en posesión de los Entes |
Registro (u observación) | Cada uno de los elementos (sujetos, observaciones, hechos) dentro de una base de datos o conjunto de datos; usualmente escritas en filas o tuplas. Por ejemplo, en un conjunto de datos sobre beneficiarios de un programa social, existen 350 registros, que corresponden a cada uno de los beneficiarios (beneficiario1, beneficiario2...beneficiario 350). |
REST | Siglas en inglés de transferencia de estado representacional (Representational State Transfer), es un estilo de arquitectura de software para sistemas hipermedia distribuidos, como la World Wide Web, basada en el protocolo HTTP. Sirve para obtener y generar datos, devolviéndolos en formatos muy específicos como XML y JSON. |
RDF | Siglas en inglés de Marco de descripción de recursos (Resource Description Framework). Es la forma de describir los datos vinculados. Los datos en RDF se estructuran en forma de "tripletes"; es decir, cada dato elementos: sujeto, predicado y objeto. Se almacenan en bases de datos especializadas llamadas triplestore o almacén de RDF. |
RDF Schema | RDF Schema es una extensión del vocabulario básico de RDF. Proporciona un vocabulario para modelar datos. |
Servicio Web | Es un servicio basado en la red que permite la interacción ordenada hacia un sistema informático, ya sea de forma manual o automatizada, con el propósito de leer o actualizar una base de datos de manera segura y controlada. |
Shapefile | Es un formato de archivo de datos espaciales desarrollado por la compañía ESRI, dueña de los softwares Arc/info o ArGis. Se utiliza para almacenar la ubicación geométrica y la información de atributos de las entidades geográficas. Las entidades geográficas de un shapefile se pueden representar por medio de puntos, líneas o polígonos (áreas). |
Sistema de información | Conjunto integrado de componentes de recursos de tecnologías de la información* que tiene como objeto recolectar, almacenar y/o procesar datos. Suelen consultar o escribir información en una base de datos. Ejemplos: Sistema de Control de Gestión; Sistema de Información, Evaluación y Seguimiento; Sistema Integral de Administración de Personal. |
Sistema gestor de base de datos | Es un conjunto de programas que permiten el almacenamiento, modificación y extracción de la información en una base de datos al servir de interfaz entre ésta, la persona usuaria y las aplicaciones. Existen distintos tipos de SGBD: 1) según el modelo de datos, pueden ser relacionales, en red, jerárquicos u orientados a objetos; 2) en función de la propiedad, los hay propietarios y no propietarios; 3) en cuanto al número de usuarios pueden ser mono-usuarios y distribuidos; y 4) en función de los sitios de operación, pueden ser centralizados o distribuidos. |
SIG | Siglas par Sistema de Información Geográfica. Ver: Sistema de Información Geográfica |
Sistema de información geográfica | Un sistema de información geográfica (SIG) es un sistema diseñado para almacenar, administrar, capturar, manipular, analizar, y presentar datos espaciales o geográficos. |
SPARQL | Lenguaje estandarizado para la consulta de grafos RDF, de manera que permite traducir datos en grafo en datos normalizados en formato tabular, es decir, distribuidos en filas y columnas, para que se puedan abrir en programas como Excel o importar a otros programas de visualización. |
SQL | Siglas en inglés de lenguaje de consulta estructurada (Structured Query Language), es un lenguaje de dominio específico utilizado en programación, diseñado para administrar y recuperar información de sistemas gestores de bases de datos relacionales. |
Stata | Es un paquete de software estadístico que permite, entre otras, la gestión de datos, análisis estadístico, trazado de gráficos y simulaciones. |
triplestore | Ver Almacén de RDF. |
TSV | Tab Separated Values. Es un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por tabulaciones y las filas por saltos de línea. |
URI | Siglas en inglés para Identificador uniforme de recursos (Uniform Resource Identifier) define un esquema simple y extensible para la identificación única en la red de recursos abstractos o físicos (reales). Un recurso puede ser cualquier objeto con una identidad clara (según el contexto de aplicación). |
URL | Siglas en inglés para Localizador uniforme de recurso (Uniform Resource Locator) es un identificador de recursos uniforme (URI) localizado en la web; es decir, es la dirección específica que se asigna a cada uno de los recursos disponibles en la red (páginas, sitios, documentos, archivos, carpetas) con la finalidad de que estos puedan ser localizados o identificados. |
Variable | ver: atributo |
Visualización de datos | Es la presentación de información y datos en un formato gráfico, que tiene como objetivo la interpretación y construcción de significado a partir de los datos y la comunicación a partir del análisis presentado visualmente que ayude a comprender conceptos o identificar nuevos patrones. |
W3C | World Wide Web Consortium. Consorcio internacional que genera recomendaciones y estándares para asegurar el funcionamiento de la World Wide Web a largo plazo. |
World Wide Web | Red informática mundial. De acuerdo al W3C, es un espacio de información en el cual ítems de interés, denominados recursos, se identifican mediante identificadores uniformes de recurso (URI por sus siglas en inglés). |
Web semántica | Es un esfuerzo colaborativo liderado por el W3C con la participación de numerosos miembros del sector académico, público y privado, que busca en crear una red mundial de datos. Consiste en dos elementos: 1) Formatos comunes para integrar y combinar datos de distintas fuentes 2) Lenguajes comunes para nombrar los datos |
XHTML | Es un lenguaje de marcado que permite editar webs. Es básicamente HTLM expresado como XML válido. |
XLS | Es un archivo de plantilla de cálculo y de formato propietario Microsoft Excel que sirve para almacenar hojas de cálculo en las cuales se pueden hacer cálculos básicos, herramientas gráficas y usar un lenguaje de programación llamado Visual Basic. |
XLSX | Es un archivo de hoja de cálculo y de formato propietario Microsoft, de especificación abierta. |
XML | Siglas en inglés de Extensible Markup Language. Es un lenguaje estructurado mediante etiquetas o marcas que aportan datos o información que se desea procesar. Fue desarrollado por la World Wide Web Consortium (W3C) y es muy útil para representar datos estructurados. |
XML Schema | Lenguaje para definir la estructura de los documentos XML. |