martes, 14 de febrero de 2012


ARQUITECTURA DE  UN DATA WAREHOUSE

1.- Base de datos operacional / Nivel de base de datos externo
 Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas. Son las bases de datos operacionales de donde se extrae la información necesaria para el Data Warehouse. Estas bases de datos pueden ser:
-Internas: pertenecientes a la propia organización.
-Externas: bases de datos gubernamentales, empresas de servicios de tendencias demográficas, econométricas, adquisitivas, competitivas, sistemas de reserva, etc.
La meta del data warehousing es liberar la información que es almacenada en bases de datos operacionales y combinarla con la información desde otra fuente de datos, generalmente externa. Cada vez más, las organizaciones adquieren datos adicionales desde bases externas.

2.- Acceso a la información
El nivel de acceso a la información de la arquitectura data warehouse, es el nivel del que el usuario final se encarga directamente. En particular, representa las herramientas que el usuario final normalmente usa día a día. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.
Este nivel también incluye el hardware y software involucrados en mostrar información en pantalla y emitir reportes de impresión, hojas de cálculo, gráficos y diagramas para el análisis y presentación.
Actualmente, existen herramientas más y más sofisticadas para manipular, analizar y presentar los datos, sin embargo, hay problemas significativos al tratar de convertir los datos tal como han sido recolectados para las herramientas de los usuarios finales.

3.- Acceso a los datos
El nivel de acceso a los datos de la arquitectura data warehouse está involucrado con el nivel de acceso a la información para conversar en el nivel operacional. En la red mundial de hoy, el lenguaje de datos común que ha surgido es SQL.
Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales".
El acceso a los datos universales significa que, teóricamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la información o ubicación, deberían ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su trabajo.
El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita.

4.- Directorio de Datos (Metadata)
A fin de proveer el acceso a los datos universales, es absolutamente necesario mantener alguna forma de directorio de datos o repositorio de la información metadata. El Metadata indica QUÉ datos se tienen, DÓNDE se encuentran y CÓMO están almacenados dentro del Data WareHouse.
A fin de tener un depósito totalmente funcional, es necesario tener:
* Una variedad de metadata disponibles.
* Información sobre las vistas de datos de los usuarios finales.
* Información sobre las bases de datos operacionales.
 Idealmente, los usuarios finales deberían de acceder a los datos desde el data warehouse (o desde las bases de datos operacionales), sin tener que conocer dónde residen los datos o la forma en que se han almacenados.


5.- Gestión de Procesos
El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener el data warehouse y la información del directorio de datos. Este nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado.

6.- Mensaje de la Aplicación
El nivel de mensaje de la aplicación tiene que ver con el transporte de información alrededor de la red de la empresa. El mensaje de aplicación se refiere también como "subproducto", pero puede involucrar sólo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o estratégicas a partir del formato de datos exacto, recolectar transacciones o los mensajes y entregarlos a una ubicación segura en un tiempo seguro.


7.- Data Warehouse (Físico)
En el data warehouse (núcleo) es donde ocurre la data actual, usada principalmente para usos estratégicos. En algunos casos, uno puede pensar del data warehouse simplemente como una vista lógica o virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar almacenamiento de datos.
En un data warehouse físico, copias, en algunos casos, muchas copias de datos operacionales y/o externos, son almacenados realmente en una forma que es fácil de acceder y es altamente flexible. Cada vez más, los data warehouses son almacenados sobre plataformas cliente/servidor, pero por lo general se almacenan sobre mainframes.


8.-Organización de Datos
El componente final de la arquitectura data warehouse es la organización de los datos. Se llama también gestión de copia o réplica, pero de hecho, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas.
La organización de datos involucra con frecuencia una programación compleja, pero cada vez más, están creándose las herramientas data warehousing para ayudar en este proceso. Involucra también programas de análisis de calidad de datos y filtros que identifican modelos y estructura de datos dentro de la data operacional existente.

lunes, 13 de febrero de 2012


INTRODUCCION AL DATA WAREHOUSE
SISTEMAS DE INFORMACIÓN


Sistema: Estratégico: orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de trabajo, es decir, su utilización no es predecible, al contrario de los casos anteriores, cuya utilización es periódica.
Sistema Táctico: diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestión independiente de la información por parte de los niveles intermedios de la organización.
Sistema Técnico-operativo: Encargados de las áreas de control de inventarios, gestion, compras, ventas. Cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de censores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y data warehousing.
Sistema Interinstitucional: Son todos aquellos sistemas que se conecten entre multiples sucursales u organizaciones.  Este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter global, el cual obliga a pensar e implementar estructuras de comunicación más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo ésto a partir de la generalización de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red Global).

Definición Data WareHouse:
El uso de tecnicas y herramientas que permiten a los usuarios con conocimiento del Negocio, la capacidad de acceder fácilmente a los datos coorporativos que le son necesarios para la ayuda o soporte en la toma de decisiones.







domingo, 12 de febrero de 2012

SISTEMA OLTP Y OLAP

SISTEMA OLTP
On-Line Transactional Processing

     Los sistemas OLTP son bases de datos orientas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit o invalidado con un rollbak), y que puede involucrar operaciones de inserción, modificación y borrado de datos.

  • El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).
  • Los datos se estructuran según el nivel de aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental).
  • Los formatos de datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).
  • El historial de datos suele limitarse a los datos actuales o recientes.

SISTEMA OLAP
On-Line Analytical Processing

     Los sistemas OLTP son bases de datos orientadas al procesamiento analítico. Éste análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos, entre otros. Este sistema es típico de los datamarts.
  • El acceso a los datos suele ser de sólo lectura. La acción más común es la de consulta, con muy pocas inserciones, actualizaciones o eliminaciones.
  • Los datos se estructuran según las áreas de negocio, y los formatos de los datos están integrados de manera uniforme en toda la organización.
  • El historial de los datos es a largo plazo, normalmente de dos a cinco años.
  • Las bases de datos OLAP se suelen alimentar de información procedente de los sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL).




OLTP VS OLAP


OLTP OLAP
Muchos usuarios concurrentes Pocos usuarios concurrentes
Cantidades pequeñas de datos detallados Cantidades grandes de datos detallados
Valores precisos en el momento de acceso Información resumida o sumarizada
Uso por administrativos u operarios Orientado a ejecutivos
Pueden actualizarse los datos Valores en el tiempo
Uso repetido No se actualiza
Dirigido por transacciones El uso es heurístico
Orientado a aplicaciones Dirigidos por análisis
Alta disponibilidad Requerimientos de respuesta no críticos
No redundantes Existe redundancia
Estructura estática para contexto variante Estructura flexible
Acceso unitario en el tiempo Acceso en conjunto en el tiempo
Consultas predefinidas y actualizables Consultas complejas frecuentemente no anticipadas