Data Warehouse
DATA WAREHOUSE
20 de Octubre 2006
INTRODUCCION
Hoy en día toda empresa necesita depositar mucha
confianza en la toma de decisiones sobre los negocios,
para tomar dichas decisiones requerimos hechos y cifras,
sabemos que la competencia crece en todo momento por
lo que las decisiones deben ser mas aceleradas; pero que
pasa si tenemos una montaña de información la cual debe
ser analizada, lógicamente?...
las empresas no dependen tan solo de factores como
ubicación, productos, etc. Sino también del conocimiento.
Tal conocimiento basado en información comprensible,
detallada y relevante, es crucial para lograr tomar
decisiones estratégicas logrando así sostener ventajas
competitivas en las organizaciones.
Desde que se inició la era de la computadora, las
organizaciones han usado los datos desde sus sistemas
operacionales para atender sus necesidades de
información. El data warehouse, es actualmente, el
centro de atención de las grandes instituciones, porque
provee un ambiente para que las organizaciones hagan
un mejor uso de la información que está siendo
administrada por diversas aplicaciones operacionales.
QUE ES UN DATA
WAREHOUSE?
DEFINICION:
Un Data Warehouse o Depósito de Datos es
una colección de datos orientado a temas.
Datawarehouse
Existen muchas definiciones para el DW, la más conocida
fue propuesta por Inmon [MicroSt96] (considerado el
padre de las Bases de Datos) en 1992:
“Un DW es una colección de datos orientados a temas,
integrados, no-volátiles y variante en el tiempo,
organizados para soportar necesidades
empresariales”.
En 1993, Susan Osterfeldt publica una definición que
sin duda acierta en la clave del DW:
“Yo considero al DW como algo que provee dos
beneficios empresariales reales: Integración y Acceso
de datos. DW elimina una gran cantidad de datos
inútiles y no deseados, como también el
procesamiento desde el ambiente operacional
clásico”.
CARACTERISTICAS
Entre las principales se tiene:

Orientado al tema

Integrado

De tiempo variante

No volátil
ORIENTADO A TEMAS
Una primera característica del data warehouse es que la
información se clasifica en base a los aspectos que son
de interés para la empresa. Siendo así, los datos tomados
están en contraste con los clásicos procesos orientados a
las aplicaciones. En la Figura N° 1 se muestra el
contraste entre los dos tipos de orientaciones.
El ambiente operacional se diseña alrededor de las
aplicaciones y funciones tales como préstamos, ahorros,
tarjeta bancaria y depósitos para una institución
financiera. Por ejemplo, una aplicación de ingreso de
órdenes puede acceder a los datos sobre clientes,
productos y cuentas. La base de datos combina estos
elementos en una estructura que acomoda las
necesidades de la aplicación.
INTEGRACION
El aspecto más importante del ambiente data warehousing
es que la información encontrada al interior está siempre
integrada.
La integración de datos se muestra de muchas maneras: en
convenciones de nombres consistentes, en la medida
uniforme de variables, en la codificación de estructuras
consistentes, en atributos físicos de los datos consistentes,
fuentes múltiples y otros.
El contraste de la integración encontrada en el data
warehouse con la carencia de integración del ambiente de
aplicaciones, se muestran en la Figura N° 2, con diferencias
bien marcadas.
A través de los años, los diseñadores de las diferentes
aplicaciones han tomado sus propias decisiones sobre cómo
se debería construir una aplicación. Los estilos y diseños
personalizados se muestran de muchas maneras.
DE TIEMPO VARIANTE
Toda la información del data warehouse es requerida en
algún momento. Esta característica básica de los datos en un
depósito, es muy diferente de la información encontrada en
el ambiente operacional. En éstos, la información se requiere
al momento de acceder. En otras palabras, en el ambiente
operacional, cuando usted accesa a una unidad de
información, usted espera que los valores requeridos se
obtengan a partir del momento de acceso.
Como la información en el data warehouse es solicitada en
cualquier momento (es decir, no "ahora mismo"), los datos
encontrados en el depósito se llaman de "tiempo variante".
Los datos históricos son de poco uso en el procesamiento
operacional. La información del depósito por el contraste,
debe incluir los datos históricos para usarse en la
identificación y evaluación de tendencias. (Ver Figura N° 3).
NO VOLATIL
La información es útil sólo cuando es estable. Los datos
operacionales cambian sobre una base momento a
momento. La perspectiva más grande, esencial para el
análisis y la toma de decisiones, requiere una base de
datos estable.
En la Figura N° 4 se muestra que la actualización
(insertar, borrar y modificar), se hace regularmente en el
ambiente operacional sobre una base de registro por
registro. Pero la manipulación básica de los datos que
ocurre en el data warehouse es mucho más simple. Hay
dos únicos tipos de operaciones: la carga inicial de datos
y el acceso a los mismos. No hay actualización de datos
(en el sentido general de actualización) en el depósito,
como una parte normal de procesamiento.
Objetivos de Data WareHouse
1.
Información de la organización accesible: los contenidos del
Data WareHouse son entendibles y navegables, y el acceso a
ellos son caracterizado por el rápido desempeño. Cuando
hablamos de entendible significa, que los niveles de la
información sean correctos y obvios. Y Navegables significa
el reconocer el destino en la pantalla y llegar a donde
queramos con solo un clic. Rápido desempeño significa, cero
tiempo de espera.
2.
Información de la organización consistente: la información de
una parte de la organización puede hacerse coincidir con la
información de la otra parte de la organización. Si dos
medidas de la organización tienen el mismo nombre,
entonces deben significar la misma cosa. Y a la inversa, si
dos medidas no significan la misma cosa, entonces son
etiquetados diferentes. Información consistente significa,
información de alta calidad, toda la información es
contabilizada y completada.
Objetivos de Data WareHouse
3.
Información adaptable y elástica: el Data WareHouse esta
diseñado para cambios continuos. Cuando se le hacen
nuevas preguntas al Data WareHouse, los datos existentes y
las tecnologías no cambian ni se corrompen. Cuando se
agregan datos nuevos al Data WareHouse, los datos
existentes y las tecnologías tampoco cambian ni se
corrompen.
4.
Es un seguro baluarte que protege los valores de la
información: el Data WareHouse no solamente controla el
acceso efectivo a los datos, si no que da a los dueños de la
información gran visibilidad en el uso y abusos de los datos,
aún después de haber dejado el Data WareHouse.
5.
Es la fundación de la toma de decisiones: el Data WareHouse
tiene los datos correctos para soportar la toma de decisiones.
Solo hay una salida verdadera del Data WareHouse: las
decisiones que son hechas después de que el Data
WareHouse haya presentado las evidencias. La original
etiqueta que preside el Data WareHouse sigue siendo la
mejor descripción de un sistema de soporte a las decisiones.
ESTRUCTURA DE UN DATA
WARE HOUSE
Los data warehouses tienen una estructura distinta. Hay
niveles diferentes de esquematización y detalle que
delimitan el data warehouse. La estructura de un data
warehouse se muestra en la Figura N° 5.
En la figura, se muestran los diferentes componentes del
data warehouse y son:
 Detalle de datos actuales
 Detalle de datos antiguos
 Datos ligeramente resumidos
 Datos completamente resumidos

Meta data
FLUJO DE DATOS
Los datos ingresan al data warehouse desde el ambiente
operacional. (Hay pocas excepciones a esta regla).
Al ingresar al data warehouse, la información va al nivel de
detalle actual, tal como se muestra. Se queda allí y se usa hasta
que ocurra uno de los tres eventos siguientes:
· Sea eliminado
· Sea resumido
· Sea archivado
Con el proceso de desactualización en un data warehouse se
mueve el detalle de la data actual a data antigua, basado en el
tiempo de los datos. El proceso de esquematización usa el
detalle de los datos para calcular los datos en forma ligera y
completamente resumidos.
Hay pocas excepciones al flujo mostrado. Sin embargo, en
general, para la mayoría de datos encontrados en un data
warehouse, el flujo de la información es como se ha explicado.
USO DEL DATA
WAREHOUSE
Elementos básicos de un Data WareHouse
Sistema fuente: sistemas operacionales de registros cuya
función es capturar las transacciones del negocio. A los
sistemas fuentes también se le conoce como Legacy
System.
2. Área de trafico de datos: es un área de almacenamiento y
grupo de procesos, que limpian transforman, combinan,
remover los duplicados, guardan, archivan y preparan los
datos fuente para ser usados en el Data WareHouse.
3. Servidor de presentación: la maquina física objetivo en
donde los datos del Data WareHouse son organizados y
almacenados para querys directos por los usuarios finales,
reportes y otras aplicaciones.
4. Modelo dimensional: una disciplina especifica para el
modelado de datos que es una alternativa para los
modelos de entidad – relación.
5. Procesos de negocios: coherente grupo de actividades de
negocio que dan sentido a los usuarios del negocio del
Data WareHouse.
6. Data Mart: un subgrupo lógico del Data WareHouse
completo.
1.
Elementos básicos de un Data WareHouse
Data WareHouse: es la unión de todos los data marts que la constituyen.
7. Almacenamiento operacional de datos: es el punto de integración de los
sistemas operacionales. Es el acceso al soporte de decisiones por los
ejecutivos.
8. OLAP: actividad general de búsquedas para presentación de texto y
números del Data WareHouse, es un estilo dimensional especifico de
búsquedas y presentación de información.
9. ROLAP: grupo de interfases de usuarios y aplicaciones que le dan a la base
de datos relacional un estilo dimensional.
10. MOLAP: grupo de interfases de usuarios, aplicaciones y propietarios de
tecnología de bases de datos que tienen un fuerte estilo dimensional.
11. Aplicaciones para usuarios finales: colección de herramientas que hacen
los querys, analizan y presentan la información objetivo para el soporte de
las necesidades del negocio.
12. Herramientas de acceso a datos por usuarios finales: cliente de Data
WareHouse.
13. Ad Hoc Query Tool: tipo especifico de herramienta de acceso a datos por
usuarios finales que invita al usuario a formar sus propios querys
manipulando directamente las tablas relacionales y sus uniones.
14. Modelado de aplicaciones: sofisticado tipo de cliente de Data WareHouse
con capacidades analíticas que transforma o digiere las salidas del Data
WareHouse.
15. Meta Data: información en el ambiente del Data WareHouse que no son los
datos actuales.
6.
¿Cómo se puede conformar la bodega de datos?
Existen tres aspectos importantísimos que intervienen en el
establecimiento y el uso de una bodega de datos: el diseño, el mantenimiento,
y el uso de la misma.
Diseño requiere soportarse en un análisis profundo del negocio o de
las áreas funcionales responsables de la utilización de la bodega, las fuentes
de datos que alimentarán la bodega, y unas personas capacitadas en la
correcta estructuración de la bodega.
De las decisiones aquí tomadas, depende la velocidad de búsqueda
y la calidad obtenida en las respuestas. Una decisión mal tomada en este
aspecto puede significar demoras de días en vez de horas o minutos, o
incluso, que la bodega no esté en capacidad de responder las preguntas
claves para la organización.
Mantenimiento Según los expertos, uno de los principales
problemas que se vive con los proyectos de bodegas de datos es la
obsolescencia de su información. Se actualiza la información para el proyecto
piloto, pero no se establecen mecanismos de actualización permanente que
siempre garanticen la oportunidad de la misma.
Decisiones que se hagan sobre el uso que se hará de la bodega de
datos, resaltándose en este aspecto la capacidad y entrenamiento que deben
tener los distintos usuarios para buscar relaciones y analizar la información.
Si bien es cierto que la bodega de datos agiliza esta tarea, es deber de los
usuarios saber cómo preguntar, interpretar y poner en práctica los resultados
que obtienen, pero además, se debe definir en forma muy clara, el ámbito
empresarial en el que operará la bodega, las dependencias administrativas de
la organización que van a tener acceso y las consultas que ésta debe
responder inicialmente.
REQUERIMIENTOS PARA IMPLEMENTAR
DATA WAREHOUSE
HARDWARE:
Se requiere de un servidor para el almacenamiento y
manejo de la base de datos corporativa; este servidor se
recomienda que sea altamente escalable, pues algunas veces el
proyecto
de
construcción
de
la
bodega
presenta
redimensionamiento a medida que se avanza en la
implementación.
Dependiendo del diseño del sistema, puede ser necesario
contar con un segundo servidor para las herramientas de consulta
de datos. Este equipo debe tener el sistema operativo
recomendado por el proveedor de la herramienta a utilizar, siendo
el más usado Windows.
Las estaciones de trabajo de cada usuario
deberán cumplir con las características
recomendadas por el proveedor de la
herramienta de consulta seleccionada.
REQUERIMIENTOS PARA IMPLEMENTAR
DATA WAREHOUSE
SOFTWARE
Las herramientas se clasifican en cuatro categorías básicas:
Herramientas de Almacenamiento: corresponde a la herramienta en la cual
se irán a almacenar los datos. Cada uno de los sistemas de administración de
bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen
una facilidad de Data Warehouse.
Herramientas de Extracción y Colección: Ayudan a definir, acumular,
totalizar y filtrar los datos de los sistemas transaccionales en el Data
Warehouse. La mayoría de esas herramientas son desarrolladas por el
personal interno de la compañía dado el gran conocimiento que tienen de los
sistemas transaccionales.
Herramientas para Elaboración de Reportes a Usuarios Finales: Es la
interfase vista por el usuario. Al usuario se le debe proveer un mecanismo
para que vea los datos a un alto nivel y que entonces obtenga con ello la
solución a preguntas específicas. Existen muchas herramientas, incluyendo
Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc.
Herramientas de Análisis Inteligente: Entre ellas están las de empresas
como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas
herramientas han sido construidas utilizando inteligencia artificial que buscan
alrededor del Data Warehouse modelos y relaciones en los datos. Estas
herramientas utilizan una técnica conocida como Data Minning o Minería de
datos.
Data Mining
Es una tecnología de soporte para usuario final, cuyo
objetivo es extraer conocimiento útil y utilizable a partir de la
información contenida en las bases de datos de las empresas.
Los objetivos de un sistema Data mining nos permiten
analizar factores de influencia en determinados procesos,
predecir o estimar variables o comportamientos futuros,
segmentar o agrupar ítems similares, además de obtener
secuencias de eventos que provocan comportamientos
específicos.
Se desarrollan bajo lenguajes de ultima generación
basados en la inteligencia artificial y utilizando métodos
matemáticos, tales como:




Redes neuronales
Introducción de reglas
Arboles de decisión
Conjunto de reglas por clase
Soporta tambien sofisticadas operaciones de análisis
tales como los sistemas Scoring y aplicaciones de detección de
fraude.
Descargar

Diapositiva 1