TEMA 3
"CONSTRUCCIÓN DE UN DATAWAREHOUSE"
3.1 Metodología para la construcción de un Datawarehouse
Antes de comenzar con las metodologías que existen para la construcción de un Datawarehouse definiremos qué es un Datawarehouse.
El Datawarehouse es definido por Bill Inmon como "un almacén de datos" en el cual la información se encuentra ordenada y estructurada para un fácil acceso a ella. La información que contiene el DatawareHouse proviene de diferentes orígenes y orientada a diferentes temas. Las características de un datawarehouse se mencionan a continuación:
-Integración: Los datos en un almacén de datos deben de integrarse en una estructura consistente y la información suele estructurarse en varios niveles dependiendo las necesidades del usuario.
-Temático: Los datos son organizados por temas para facilitar su acceso y que los usuarios finales puedan entender.
-Histórico: la información almacenada sirve para realizar un análisis de tendencias. El datawarehouse carga distintos valores de variables que pueden tomar en el tiempo para poder realizar comparaciones de una variable pasada a otra presente o con datos futuros.
-No volátil: La información contenida debe de ser permanente y no debe de reemplazar información en alguna variable.
El DataWarehouse es una base de datos donde la información contenida en él es combinación de varios DataMart.
Un DataMart es un conjunto de datos que son recopilados de un área especifica de un negocio. Los datos contenidos en él pueden ser agrupados, explorados y propagados de múltiples formas para la explotación de los mismos.
Existen diferentes metodologías para diseñar y desarrollar un Datawarehouse, aunque las mas utilizadas son la metodología de Kimball y la de Inmon.
A continuación se explica una de estas dos metodologías, la del autor Kimball.
Kimball establece una serie de pasos para la construcción de un Almacén de datos o Datawarehouse, los cuales se basan en el Ciclo de vida Dimensional del Negocio (Business Dimensional Lifecycle) y contiene cuatro principios básicos:
1.- Centrarse en el negocio.
2.- Construir una infraestructura de información adecuada.
3.- Realizar entregas en incrementos significativos. Esto es crear el almacén de datos en incrementos entregables con plazos de 6 a 12 meses.
4.- Ofrecer la solución completa. Comprende todos los elementos necesarios para entregar valor a los usuarios del negocio. El almacén de datos ya se encuentra bien diseñado, se entregan aplicaciones para informes, capacitación, soporte, documentación y sitio web.
El ciclo de vida en la metodología de Kimball se muestra en la siguiente imagen:
Las actividades del ciclo de vida se describen a continuación;
- Planificación del proyecto:
Aquí se describe el alcance del proyecto, se identifican las tareas, se programan las tareas, planificación de los recursos y elaborar el plan del proyecto.
- Análisis de requerimientos:
En este proceso se realizan entrevistas al personal del negocio. Se debe conocer acerca de los competidores, la industria y los clientes. Con estas entrevistas se puede obtener temas analíticos como se muestra en la tabla:
- Modelado Dimensional:
La creación de un modelo dimensional se basa en el diseño del datawarehouse, y su proceso consiste en: Elegir el proceso del negocio, establecer el nivel de granularidad, elegir las dimensiones e identificar las medidas y tablas de hechos.
- Diseño físico:
Se intenta contestar las siguientes preguntas:
-¿Cómo se puede determinar el tamaño del datawarehouse?
-¿Cómo se debe configurar el sistema?
-¿Cuánta memoria, procesadores, almacenamiento y servidores se necesitan?
-¿Qué necesitan instalar los miembros del equipo en sus estaciones de trabajo?
-¿Cómo conseguir un plan de indexación inicial?
-¿Debe usarse la partición en las tablas relacionales?
Referencias:
http://www.kimballgroup.com/
www.ucasal.edu.ar/htm/ingenieria/cuadernos/archivos/5-p56-rivadera-formateado.pdf
Imhoff & Galemmo, Mastering Data Warehouse Design: Relational
and Dimensional Techniques, Wiley Publishing, 2003.
Kimball & Caserta, The Data Warehouse ETL Toolkit, Indianapolis,
Wiley, 2004.
A continuación pueden ver un video en donde Bill Inmon el autor de una metodología de Datawarehouse habla sobre este tema, la importancia de mantener la información, La Inteligencia de Negocios y el Data Warehousing.
No hay comentarios.:
Publicar un comentario