modelado de datos

El modelado de datos es el proceso de documentar un diseño de sistema de software complejo como un diagrama de fácil comprensión, utilizando texto y símbolos para representar la forma en que los datos deben fluir. El diagrama se puede utilizar para garantizar un uso eficiente de los datos, como modelo para la construcción de un nuevo software o para la reingeniería de una aplicación heredada.

El modelado de datos es una habilidad importante para los científicos de datos u otras personas involucradas en el análisis de datos. Tradicionalmente, los modelos de datos se han construido durante las fases de análisis y diseño de un proyecto para garantizar que los requisitos para una nueva aplicación se comprendan completamente. Los modelos de datos también se pueden invocar más adelante en el ciclo de vida de los datos para racionalizar diseños de datos que fueron creados originalmente por programadores de forma ad hoc.

Enfoques de modelado de datos

El modelado de datos puede ser un proceso inicial minucioso y, como tal, a veces se considera que está en desacuerdo con las metodologías de desarrollo rápido. A medida que la programación ágil se ha ampliado para acelerar los proyectos de desarrollo, en algunos casos se están adaptando los métodos de modelado de datos posteriores a los hechos. Por lo general, un modelo de datos puede considerarse como un diagrama de flujo que ilustra las relaciones entre los datos. Permite a las partes interesadas identificar errores y realizar cambios antes de que se haya escrito ningún código de programación. Alternativamente, los modelos se pueden introducir como parte de los esfuerzos de ingeniería inversa que extraen modelos de sistemas existentes, como se ve con los datos NoSQL.

Los modeladores de datos a menudo utilizan varios modelos para ver los mismos datos y asegurarse de que se han identificado todos los procesos, entidades, relaciones y flujos de datos. Inician nuevos proyectos reuniendo los requisitos de las partes interesadas del negocio. Las etapas de modelado de datos se desglosan aproximadamente en la creación de modelos de datos lógicos que muestran atributos, entidades y relaciones específicos entre entidades y el modelo de datos físico.

El modelo de datos lógicos sirve como base para la creación de un modelo de datos físicos, que es específico para la aplicación y la base de datos a implementar. Un modelo de datos puede convertirse en la base para construir un esquema de datos más detallado.

Pasos clave en el proceso de modelado de datos

Modelado jerárquico de datos

El modelado de datos como disciplina comenzó a surgir en la década de 1960, acompañando el repunte en el uso de sistemas de gestión de bases de datos (DBMSes). El modelado de datos permitió a las organizaciones aportar consistencia, repetibilidad y desarrollo ordenado al procesamiento de datos. Los usuarios finales de la aplicación y los programadores pudieron utilizar el modelo de datos como referencia en las comunicaciones con los diseñadores de datos.

Los modelos de datos jerárquicos que agrupan los datos en arreglos de uno a muchos similares a un árbol marcaron estos primeros esfuerzos y reemplazaron a los sistemas basados en archivos en muchos casos de uso populares. El Sistema de Gestión de la Información (IMS) de IBM es un ejemplo primario del enfoque jerárquico, que encontró un amplio uso en las empresas, especialmente en la banca. Aunque los modelos de datos jerárquicos fueron reemplazados en gran medida, a partir de la década de 1980, por modelos de datos relacionales, el método jerárquico es común todavía en XML (Lenguaje de marcado Extensible) y sistemas de información geográfica (GISes) hoy en día. Los modelos de datos de red también surgieron en los primeros días de las DBMSes como un medio para proporcionar a los diseñadores de datos una visión conceptual amplia de sus sistemas. Un ejemplo de ello es la Conferencia sobre Lenguajes de Sistemas de Datos (CODASYL), que se formó a finales de la década de 1950 para guiar el desarrollo de un lenguaje de programación estándar que podría usarse en varios tipos de computadoras.

Modelado de datos relacionales

Si bien redujo la complejidad del programa en comparación con los sistemas basados en archivos, el modelo jerárquico aún requería una comprensión detallada del almacenamiento de datos físicos específicos empleado. Propuesto como una alternativa al modelo de datos jerárquico, el modelo de datos relacional no requiere que los desarrolladores definan rutas de datos. El modelado de datos relacionales fue descrito por primera vez en un artículo técnico de 1970 por el investigador de IBM E. F. Codd. El modelo relacional de Codd sentó las bases para el uso industrial de bases de datos relacionales en las que los segmentos de datos se unen explícitamente mediante el uso de tablas, en comparación con el modelo jerárquico donde los datos se unen implícitamente. Poco después de su creación, el modelo de datos relacional se combinó con el Lenguaje de Consulta Estructurado (SQL) y comenzó a ganar un punto de apoyo cada vez mayor en la computación empresarial como un medio eficiente para procesar datos.

El modelo de relación de entidades

El modelado de datos relacionales dio otro paso adelante a mediados de la década de 1970, a medida que el uso de modelos de relación de entidades (ER) se hizo más frecuente. Estrechamente integrados con modelos de datos relacionales, los modelos ER utilizan diagramas para representar gráficamente los elementos de una base de datos y facilitar la comprensión de los modelos subyacentes.

Con el modelado relacional, los tipos de datos se determinan y rara vez se cambian con el tiempo. Las entidades comprenden atributos; por ejemplo, los atributos de una entidad empleada podrían incluir apellido, nombre, años empleados, etc. Las relaciones se mapean visualmente, proporcionando un medio listo para comunicar los objetivos de diseño de datos a varios participantes en el desarrollo y mantenimiento de datos. Con el tiempo, las herramientas de modelado, incluyendo ER/Studio de Idera, Modelador de datos Erwin y SAP PowerDesigner, ganaron un amplio uso entre los arquitectos de datos para diseñar sistemas.

modelo de datos de gráficos
Los modelos de datos de gráficos serán familiares para los programadores que han trabajado con diagramas ER y modelos de objetos, así como para los estudiantes de primaria que han analizado oraciones.

A medida que la programación orientada a objetos ganó terreno en la década de 1990, el modelado orientado a objetos ganó tracción como otra forma de diseñar sistemas. Aunque tienen cierta semejanza con los métodos ER, los enfoques orientados a objetos difieren en que se centran en abstracciones de objetos de entidades del mundo real. Los objetos se agrupan en jerarquías de clase, y los objetos dentro de dichas jerarquías de clase pueden heredar atributos y métodos de las clases principales. Debido a este rasgo de herencia, los modelos de datos orientados a objetos tienen algunas ventajas en comparación con el modelado ER, en términos de garantizar la integridad de los datos y admitir relaciones de datos más complejas. También surgieron en la década de 1990 modelos de datos orientados específicamente a las necesidades de almacenamiento de datos. Ejemplos notables son los modelos dimensionales de esquema de copo de nieve y esquema de estrella.

Modelos de datos de gráficos

Una rama del modelado de datos jerárquicos y de red es el modelo de gráficos de propiedades, que, junto con las bases de datos de gráficos, ha encontrado un mayor uso para describir relaciones complejas dentro de conjuntos de datos, particularmente en redes sociales, recomendaciones y aplicaciones de detección de fraude.

Usando el modelo de datos de gráficos, los diseñadores describen su sistema como un gráfico conectado de nodos y relaciones, al igual que podrían hacer con el modelado de datos de objetos o ER. Los modelos de datos de gráficos se pueden utilizar para el análisis de texto, creando modelos que descubren relaciones entre puntos de datos dentro de documentos.

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *