ARQUITECTURA DE UN DATA WAREHOUSE
1.- Base de datos operacional /
Nivel de base de datos externo
Los sistemas
operacionales procesan datos para apoyar las necesidades operacionales
críticas. Son las bases de datos operacionales de donde se extrae la
información necesaria para el Data Warehouse. Estas bases de datos pueden ser:
-Internas: pertenecientes a la propia organización.
-Externas: bases de datos gubernamentales, empresas de
servicios de tendencias demográficas, econométricas, adquisitivas,
competitivas, sistemas de reserva, etc.
La
meta del data warehousing es liberar la información que es almacenada en bases
de datos operacionales y combinarla con la información desde otra fuente de
datos, generalmente externa. Cada vez más, las organizaciones adquieren datos
adicionales desde bases externas.
2.- Acceso a la información
El
nivel de acceso a la información de la arquitectura data warehouse, es el nivel
del que el usuario final se encarga directamente. En particular, representa las
herramientas que el usuario final normalmente usa día a día. Por ejemplo:
Excel, Lotus 1-2-3, Focus, Access, SAS, etc.
Este
nivel también incluye el hardware y software involucrados en mostrar
información en pantalla y emitir reportes de impresión, hojas de cálculo,
gráficos y diagramas para el análisis y presentación.
Actualmente,
existen herramientas más y más sofisticadas para manipular, analizar y
presentar los datos, sin embargo, hay problemas significativos al tratar de
convertir los datos tal como han sido recolectados para las herramientas de los
usuarios finales.
3.- Acceso a los datos
El
nivel de acceso a los datos de la arquitectura data warehouse está involucrado
con el nivel de acceso a la información para conversar en el nivel operacional.
En la red mundial de hoy, el lenguaje de datos común que ha surgido es SQL.
Una
de las claves de una estrategia data warehousing es proveer a los usuarios
finales con "acceso a datos universales".
El
acceso a los datos universales significa que, teóricamente por lo menos, los
usuarios finales sin tener en cuenta la herramienta de acceso a la información
o ubicación, deberían ser capaces de acceder a cualquier o todos los datos en
la empresa que es necesaria para ellos, para hacer su trabajo.
El
nivel de acceso a los datos entonces es responsable de la interfaces entre las
herramientas de acceso a la información y las bases de datos operacionales. En
algunos casos, esto es todo lo que un usuario final necesita.
4.- Directorio de Datos (Metadata)
A
fin de proveer el acceso a los datos universales, es absolutamente necesario
mantener alguna forma de directorio de datos o repositorio de la información
metadata. El Metadata indica QUÉ datos se tienen, DÓNDE se encuentran y CÓMO
están almacenados dentro del Data WareHouse.
A
fin de tener un depósito totalmente funcional, es necesario tener:
* Una
variedad de metadata disponibles.
* Información
sobre las vistas de datos de los usuarios finales.
* Información
sobre las bases de datos operacionales.
Idealmente, los usuarios finales deberían de
acceder a los datos desde el data warehouse (o desde las bases de datos
operacionales), sin tener que conocer dónde residen los datos o la forma en que
se han almacenados.
5.- Gestión de Procesos
El nivel de gestión de procesos tiene
que ver con la programación de diversas tareas que deben realizarse para
construir y mantener el data warehouse y la información del directorio de
datos. Este nivel puede depender del alto nivel de control de trabajo para
muchos procesos (procedimientos) que deben ocurrir para mantener el data
warehouse actualizado.
6.- Mensaje de la Aplicación
El nivel de mensaje de la aplicación
tiene que ver con el transporte de información alrededor de la red de la
empresa. El mensaje de aplicación se refiere también como
"subproducto", pero puede involucrar sólo protocolos de red. Puede
usarse por ejemplo, para aislar aplicaciones operacionales o estratégicas a
partir del formato de datos exacto, recolectar transacciones o los mensajes y
entregarlos a una ubicación segura en un tiempo seguro.
7.- Data Warehouse (Físico)
7.- Data Warehouse (Físico)
En el data warehouse (núcleo) es donde
ocurre la data actual, usada principalmente para usos estratégicos. En algunos
casos, uno puede pensar del data warehouse simplemente como una vista lógica o
virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar
almacenamiento de datos.
En un data warehouse físico, copias, en
algunos casos, muchas copias de datos operacionales y/o externos, son almacenados
realmente en una forma que es fácil de acceder y es altamente flexible. Cada
vez más, los data warehouses son almacenados sobre plataformas
cliente/servidor, pero por lo general se almacenan sobre mainframes.
8.-Organización de Datos
El componente final de la arquitectura
data warehouse es la organización de los datos. Se llama también gestión de
copia o réplica, pero de hecho, incluye todos los procesos necesarios como
seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder
a la información desde bases de datos operacionales y/o externas.
La organización de datos involucra con
frecuencia una programación compleja, pero cada vez más, están creándose las
herramientas data warehousing para ayudar en este proceso. Involucra también
programas de análisis de calidad de datos y filtros que identifican modelos y
estructura de datos dentro de la data operacional existente.