Creando el próximo Data Warehouse:
Integración y Calidad de Datos
Sesión 1: Fundamentos del DWH
Alberto Collado
1
Agenda
 Sesión 1:
 Fundamentos del DWH
 Sesión 2:
 Fundamentos de la Calidad de Datos
 Sesión 3:
 Caso práctico: Un DWH con Calidad
2
Agenda Sesión 1
 Presentación PowerData
 Presentación asistentes: Conocimientos y Expectativas
 Fundamentos DWH







3
Introducción al DWH
Arquitectura de un DWH
Modelado de Datos y Metadatos
Esquemas en Estrella
Procesos y Estrategias de carga del DWH
Herramientas de Integración de Datos
Herramientas de Reporting y Análisis
Presentación PowerData
4
4
Presentación PowerData
 Empresa lider especializada en Data Management
 Colaboradores de Informatica Corporation en España (Elite
Partner), Chile, Argentina, Perú y Uruguay (Distributor)
 www.powerdata.es
 www.informatica.com
 Informatica
 Nacida en 1993, en California
 +1.400 colaboradores
 Powerdata
 Nacida en 1999, en Barcelona
 90 empleados
5
La solución: los servicios de datos
Necesidades
empresariales
Iniciativas de
TI
Proyectos de
integración
de datos
Mejorar
decisiones y
cumplir con la
normativa
Modernizar el
negocio y
reducir los
costes de TI
Fusiones y
adquisiciones
Aumentar la
rentabilidad
del negocio
Subcontratar
funciones
secundarias
Inteligencia
empresarial
Eliminación
de sistemas
heredados
Consolidación
de aplicaciones
Hubs de productos,
proveedores
y clientes
BPO
SaaS
Almacenamiento
de datos
Migración
de datos
Consolidación
de datos
Gestión de
datos maestros
Servicios de datos
Servicios
de datos
Plataforma de productos de Informatica
Informatica
PowerExchange
6
Informatica
Data Explorer
Informatica
Data Quality
Informatica
PowerCenter
Sincronización
de datos
La plataforma de productos de Informatica
Automatización de todo el ciclo de vida de la integración de datos
Auditoría, control y creación de informes
Garantizar la coherencia de los datos, realizar análisis de impacto y supervisar
constantemente la calidad de la información
Data Explorer
Acceso
A cualquier
sistema, por
lotes o en
tiempo real
Detección
Buscar y perfilar
cualquier tipo de
datos de
cualquier fuente
Data Quality
Limpieza
Integración
Validar, corregir y
estandarizar datos
de todo tipo
Transformar y
conciliar datos de
todo tipo
Entrega
Entregar los datos
adecuados en el
momento y formato
adecuados
PowerCenter
PowerExchange
Desarrollo y gestión
Desarrollar y colaborar con un repositorio común y metadatos compartidos
7
Presentación Asistentes:
Conocimientos y Expectativas
8
8
Fundamentos del DWH
9
Fundamentos del DWH
 Introducción al DWH: ¿Qué es?
 Arquitectura de un DWH
 Modelado de Datos y Metadatos
 Esquemas en Estrella
 Procesos y Estrategias de carga del DWH
 Herramientas de Integración de Datos
 Herramientas de Reporting y Análisis
10
Fundamentos del DWH
Introducción al DWH: ¿Qué es?
11
¿Qué es un Data Warehouse?
 Orientado a un Tema
 Colección de información relacionada organizada
alrededor de un tema central
 Integrado
 Datos de múltiples orígenes; consistencia de datos
 Variable en el tiempo
 ‘Fotos’ en el tiempo
 Basado en fechas/periodos
 No-volátil
 Sólo lectura para usuarios finales
 Menos frecuencia de cambios/actualizaciones
 Usado para el Soporte a Decisiones y Análisis de Negocio
12
Orientado a Tema
Los usuarios piensan en términos de ‘cosas’ y sus ‘relaciones’,
no en términos de procesos, funciones o aplicaciones.
Proveedor
Proporciona
Orden de
Compra
13
Pedido
Cliente
Contiene
Producto
Compuesta por
Realiza
Recuperado
desde
Inventario
Integrado
 Contiene




Convenciones de Nombres
Descripciones
Atributos físicos de los datos
Valores de los datos
Consistentes
Admin. Marketing
Operaciones
Datos
Ventas Cuentas
14
Variable en el tiempo
 Entorno Operacional

Data Warehouse
 Datos con valores actuales
 Horizonte de 30 - 90 días
 Exactitud en los accesos
Id de cliente
nombre
dirección
teléfono
ratio de crédito
15
Datos en ‘fotos’
 Horizonte de 5 – 10 años
 Refleja la perspectiva desde un
momento en el tiempo

Id de cliente
fecha desde
fecha hasta
nombre
dirección
teléfono
ratio de crédito
No-Volátil
inserción
cambio
lectura
carga
borrado
Sistema OLTP
(dinámico)
16
Sistema DSS
(más estático)
Un Data Warehouse es ...

… un modelo de datos de soporte a decisiones que
representa la información que una compañía necesita
para tomar BUENAS decisiones estratégicas.

… basado en la estructura de un sistema de gestión de
base de datos relacional el cual puede ser usado para
INTER-RELACIONAR los datos contenidos en él.

… con el propósito de proporcionar a los usuarios finales
un acceso SENCILLO a la información.
… un CONCEPTO, no una COSA
17
¿Para qué construir un Warehouse?
 Para tener un mayor conocimiento del negocio
 Para tomar mejores decisiones y en un tiempo
menor
 Para mejorar y ser más efectivos
 Para no perder distancia con la competencia
 … en definitiva … €€€
18
Visión del Usuario
Usuarios
Finales
Panel de
Consulta
Representación de
Negocio
Base de Datos
 Solución integrada de: Consultas, informes y análisis.
 Capa semántica que da una representación de los datos desde el
punto de vista de negocio.
 Los usuarios utilizan términos de negocio, no términos
informáticos.
19
Fundamentos del DWH
Arquitectura de un DWH
20
Arquitectura de un DWH
 Nomenclatura













21
DWH: Data Warehouse
DataMart
OLTP: On-Line Transaction Processing
OLAP: On-Line Analytic Processing
ROLAP: Relational On-Line Analytic Processing
MOLAP: Multidimensional On-Line Analytic Processing
ODS: Object Data Store
DSS: Decision Support System
ETL: Extract, Transform and Load
ETQL: Extract, Transform, Quality and Load
EII: Enterprise Information Integration
EAI: Enterprise Application Integration
ERP: Enterprise Resource Planning
Directo de OLTP a OLAP
Life
Life
Information System
Life
OLAP
Health
Health
Information System
Auto
Information System
22
Health
Query
Auto
Auto
Analysis
Directo de OLTP a OLAP
 Es bueno, si los datos lo son.
 Horizonte de tiempo limitado
 Compite con OLTP por los recursos
 Uso frecuente para hojas de cálculo
 No tiene metadatos (o sólo implícitos)
 Principalmente, para jefes de departamentos,
no se considera información “para las masas”
 No hay información cruzada entre los
diferentes sistemas
23
Data Warehouse Virtual: Directo o Federado
Life
Life
Information System
Health
Health
Information System
Auto
Information System
24
EII
"Customer"
OLAP
Auto
Data Warehouse “Total”
Life
Life
Information System
Life
OLAP
MDD Tools
Health
Health
Information System
25
Extract:
COBOL,
SQL,
Etc.
Enterprise
Data
Warehouse
Health
R/OLAP
Star Schema
Auto
Auto
Information System
Extract:
COBOL,
SQL,
Etc.
Extract:
COBOL,
SQL,
Etc.
Auto
SQL Query
Data Marts No Estructurados
Life
Life
Information System
Health
Health
Information System
Auto
Auto
Information System
26
Extract:
COBOL,
SQL,
Etc.
Life
Data
Mart
Extract:
COBOL,
SQL,
Etc.
Health
Data
Mart
Extract:
COBOL,
SQL,
Etc.
Auto
Data
Mart
Life
OLAP
MDD Tools
Health
R/OLAP
Star Schema
Auto
SQL Query
Data Marts Estructurados
Life
Data
Mart
Life
OLTP
EXTRACT
SELECT
TRANSFORM
INTEGRATE
LOAD
Health
OLTP
Auto
OLTP
27
Cleanse Data
for:
Names
Formats
Values
Domains
Metadata
Life
OLAP
MDD Tools
Enterprise
Data
Warehouse
Health
Data
Mart
"Customer"
Auto
Data
Mart
Health
R/OLAP
Star Schema
Auto
SQL Query
OLAP (Online Analytic Processing)
28

Herramientas orientadas a consulta/análisis

Puede ser ROLAP o MOLAP

'Multi-dimensional', es decir, puede ser visualizada como
’cuadrículas' o 'cubos'

Consulta interactiva de datos, siguiendo un “hilo” a través
de múltiples pasos -- 'drill-down'

Visualización como tablas cruzadas, y tablas pivotantes

Actualización de la base de datos

Capacidad de modelización (motor de cálculo)

Pronósticos, tendencias y análisis estadístico.
Ejemplo uso de una herramienta de consulta
Información solicitada
Información
disponible
Condiciones



29
El interfaz de usuario simple
Trabaja contra representación de negocio de los datos
Todos los componentes en una pantalla
Los informes son la capa visible …
• Integración Datos no sólo en entornos analíticos
• Importancia de la Calidad
Herramientas de OLAP / Business Intelligence / Cuadro de Mando
Extracción
Servidores
Red
Limpieza de Datos
Bases de Datos
Transformación
Middleware
Carga de Datos
30
Data Marts Estructurados: Visión Completa
Ficheros: FF,
XML
DM
Compras
Aplicaciones:
ERP,...
BBDD
Integración +
Calidad de
Datos
DWH
DM
Financiero
Tiempo Real,
WS, Http
DM
Ventas
Legacy
Diseño Mapeos
Perfilado de
Datos
ETL,
Estandarización,
Desduplicación
Almacenamiento:
Agregación,
Indexación,...
Replicación
Distribución
Análisis
Reporting
Cuadros Mando
Metadatos: Análisis Impacto, Linaje de datos, Auditoría, Monitorización, etc
31
Fundamentos del DWH
Modelado de Datos y Metadatos
32
Técnicas de Modelización Estructural
 En esta sección veremos técnicas que afectarán a
diversos puntos
 Consideraciones de Tiempo
 Técnicas de Optimización
33
Consideraciones de Tiempo
D a ta
W a reh o u se
D a ta M a rts
R ela cio n a l
D im en sio n a l
A ctu a lid a d d e D a to s
A g ru p a cio n es b a sa d a s
en tiem p o
T iem p o
ESTRUCTURAL
S ta g in g
A rea
¿ C u á l e s e l im p a c to
d e l T ie m p o e n c a d a
A lm a c é n d e D a to s ?
R eten ció n d e
H istó rico
 Todo el DW se ve afectado por cambios temporales porque
por definición es “Tiempo-dependiente”
 Preguntas importantes:
 ¿Cuan actual deben ser los datos para satisfacer las
necesidades de negocio?
 ¿Cuánta historia necesitamos en nuestro negocio?
 ¿Qué niveles de agregación son necesarios para qué ciclos de
negocio?
34
Técnicas de Modelización Temporal
 Unidades de tiempo
 Calendarios de negocio
 Técnicas
 Foto (Snapshot)
 Trazado de Auditoría
 Metadatos temporales
 Fechas Efectivas de Inicio y Fin
 Fecha de cambio en Fuentes (evento)
 Fecha de cambio en Destinos (carga)
35
Foto (Snapshot)
 Dos técnicas diferentes
 Múltiples Tablas
 Tabla Única
 Uso de Fecha Efectiva Inicio en un
ejemplo. Metadatos a nivel de registro
F o to (S N AP S H O T)
N o v 2 0 0 1 C LIE N TE
C LIE N TE
Nu m C lie n te
O cmt b2re
0 0 1 C LIE N TE
No
A p e llid o 1
Nuom
A p e llid
2 C lie n te
No m b re
G é n e ro
F e c h a CAaprgeallid o 1
A p e llid o 2
G é n e ro
F e c h a C a rg a
36
O b ie n
Nu m C lie n te
F e c h a E fe c tiv a In ic io
No m b re
A p e llid o 1
A p e llid o 2
G é n e ro
F e c h a C a rg a
Foto (Snapshot) Múltiple
 Una tabla para cada período
 Se guardan TODOS los datos (cambien o no)
 Nombre de la tabla refleja el período
 Buen enfoque de (extracción/carga/modelado) para
Data Marts. Cada mes, en el ejemplo, representa los
datos tal y como estaban
 Mal enfoque para Staging, ya que hay mucha
replicación de datos
F o to (S N AP S H O T)
Nov 2 0 0 1 CLIENTE
C LIE N TE
N u m C lie n te
N oOmc tb 2
re0 0 1 CLIENTE
Ap e llid o 1
Ap e llid
Nou2m C lie n te
G é n e roN o m b re
Fe ch a C aAp
rg ea llid o 1
Ap e llid o 2
G é n e ro
Fe ch a C a rg a
37
O b ie n
Nu m C lie n te
F e c h a E fe c tiv a In ic io
No m b re
A p e llid o 1
A p e llid o 2
G é n e ro
F e c h a C a rg a
Foto (Snapshot) Única
 Se guardan TODOS los datos (cambien o no)
 Buen enfoque para Data Marts y puede ser útil en el
Warehouse.
 Mal enfoque para Staging, ya que hay mucha
replicación de datos
 Time Stamps imprescindibles
F o to (S N AP S H O T)
F e c h a E fe c tiv a
d e N e g o c io
N o v 2 0 0 1 C LIE N TE
C LIE N TE
Nu m C lie n te
O cmt b2re
0 0 1 C LIE N TE
No
A p e llid o 1
Nuom
A p e llid
2 C lie n te
No m b re
G é n e ro
F e c h a CAaprgeallid o 1
A p e llid o 2
G é n e ro
F e c h a C a rg a
38
O b ie n
Nu m C lie n te
F e c h a E fe c tiv a In ic io
No m b re
A p e llid o 1
A p e llid o 2
G é n e ro
F e c h a C a rg a
Foto (Snapshot) Única
 Fechas (Time Stamps) necesarias para
identificar la validez de los datos:
 Fecha efectiva de Inicio
 Fecha efectiva de Fin (no está en el ejemplo)
 Fecha de Carga
N u m C lien te F ech a E fectiva In icio
2304
31/10/2001
5590
31/10/2001
6720
31/10/2001
7841
31/10/2001
2304
30/11/2001
5590
30/11/2001
6720
30/11/2001
7841
30/11/2001
V em os la duplicidad de los datos
39
N o m b re
Juan R eyes
Julia A stur
C arlos M árquez
L uis T esquilo
Juan R eyes
Julia P icado
C arlos M árquez
L uis T esquilo
G én ero
H om bre
M ujer
H om bre
H om bre
M ujer
H om bre
F ech a C arga
01/11/2001
01/11/2001
01/11/2001
01/11/2001
01/12 /2001
01/12 /2001
01/12 /2001
01/12 /2001
Trazado de Auditoría
C LIE N TE
 Guarda los cambios de
los datos de interés
ID _ c lie n te
n o mb re
a p e llid o 1
a p e llid o 2
g é n e ro
fe c h a _ a n iv e r s a r io
 Información:
 Fecha del cambio
 Razón del cambio
 Cómo se ha detectado
 ...
 Sólo se extraen/cargan
valores modificados
40
AU D ITO R IA C LIE N TE
ID _ c lie n te
fe c h a _ in ic io _ e fe c tiv a
n o m b re
a p e llid o 1
a p e llid o 2
g é n e ro
fe c h a _ a n iv e r s a r io
fe c h a _ c a rg a
M e ta d a to a n iv e l
re g is tro
F e c h a d e Ne g o c io
(n o M e ta d a to )
Trazado de Auditoría
Num
C lien te
2304
5590
6720
F ech a E fectiva
In icio
31/10/2001
31/10/2001
31/10/2001
7841
5590
31/10/2001
30/11/2001
N o m b re
G én ero
H om bre
M ujer
H om bre
F ech a
an iversario
01/01/1964
06/03/1948
19/09/1960
F ech a
C arga
01/11/2001
01/11/2001
01/11/2001
Juan R eyes
Julia A stur
C arlos
M árquez
L uis T esquilo
Julia P icado
M ujer
25/07/1952
06/03/1948
01/11/2001
01/12 /2001
 Sólo cambios en la tabla
 Usado en Staging Area y Data Warehouse
 Posible en Data Marts, pero no es habitual ya
que no es claro para un usuario final
41
Técnicas de Optimización Estructural y Física
42
T iem p o
P o sició n
Im p lem en ta ció n
F ÍS IC O
U so
ESTRUCTURAL
S tagin g
A rea
D ata
W areh ou se
D ata M arts
R elacion al
D im en sion al
A ctualidad de D atos
A grupaciones b asad as
en tiem po
R etención de H istórico
S eguridad
D istribución
A cceso
N avegación
H erram ientas
R en d im ien to
T am añ o
D isp on ibilid ad
R ecu p eración
DBM S
¿ C ó m o d e b e o p tim iza rs e c a d a
a lm a cé n d e d a to s e n la
Im p le m e n tac ió n ?
Técnicas de Optimización
 Derivación
 Data Warehouse y Data Marts
 Usos
 Facilitar acceso
 Consistencia resultados
P Ó LIZA
n u m _ p ó liza
c ó d ig o _ tip o _ p ó liza
fe c h a _ in ic io _ p ó liza
fe c h a _ in ic io _ c o b e r tu r a
fe c h a _ fin _ c o b e r tu r a
té r m in o s
c a n tid a d _ p r im a
c a n tid a d _ s e r v ic io
P Ó LIZA R E S ID E N C IAL
n u m _ p ó liza
to ta l_ c o b e r tu r a
s u p l_ te r r e m o to s
s u p l_ in u n d a c io n e s
s u p l_ v ie n to
s u p l_ r o b o s
s u p l_ a r te
t o t a l_ s u p le m e n t o s
a c ió
n
t o t a l_ s u p le m e n t o s =
s u p l_ te r r e m o to s +
s u p l_ in u n d a c io n e s +
s u p l_ v ie n to +
s u p l_ r o b o +
s u p l_ a r te
una
de
P Ó LIZA_ AUTO M O V IL
n u m _ p ó liza
to ta l_ c o lis ió n
...
43
iv
Der
Técnicas de Optimización
 Agregación
 No cambio de
granularidad
 Objetivo: Facilitar el
acceso a los datos
Data Warehouse
P Ó LIZA
n u m _ p ó liza
c ó d ig o _ tip o _ p ó liza
fe c h a _ in ic io _ p ó liza
fe c h a _ in ic io _ c o b e rtu ra
fe c h a _ fin _ c o b e rtu ra
té rm in o s
c a n tid a d _ p rim a
c a n tid a d _ s e rv ic io
fe c h a _ c a rg a
AG RE G AC IÓ N
P Ó LIZA R E S ID E N C IAL
n u m _ p ó liza
c ó d ig o _ tip o _ p ó liz a
fe c h a _ in ic io _ p ó liz a
fe c h a _ in ic io _ c o b e r tu r a
fe c h a _ fin _ c o b e r tu r a
té r m in o s
c a n tid a d _ p r im a
c a n tid a d _ s e r v ic io
to ta l_ c o b e rtu ra
s u p l_ te rre m o to s
s u p l_ in u n d a c io n e s
s u p l_ v ie n to
s u p l_ ro b o s
s u p l_ a rte
to ta l_ s u p le m e n to s
fe c h a _ c a rg a
44
P Ó LIZA R E S ID E N C IAL
n u m _ p ó liza
to ta l_ c o b e rtu ra
s u p l_ te rre m o to s
s u p l_ in u n d a c io n e s
s u p l_ v ie n to
s u p l_ ro b o s
s u p l_ a rte
to ta l_ s u p le m e n to s
fe c h a _ c a rg a
una
de
P Ó LIZA_ AU TO M O V IL
n u m _ p ó liza
to ta l_ c o lis ió n
d e s c u e n to _ c lie n te
in d ic _ p re c io _ e s p e c ia l
fe c h a _ c a rg a
AG RE G AC IÓ N
P Ó LIZA_ AU TO M O V IL
n u m _ p ó liza
to ta l_ c o lis ió n
d e s c u e n to _ c lie n te
in d ic _ p re c io _ e s p e c ia l
c ó d ig o _ tip o _ p ó liz a
fe c h a _ in ic io _ p ó liz a
fe c h a _ in ic io _ c o b e r tu r a
fe c h a _ fin _ c o b e r tu r a
té r m in o s
c a n tid a d _ p r im a
c a n tid a d _ s e r v ic io
fe c h a _ c a rg a
Data Marts
Técnicas de Optimización
C LIE N TE
 Sumarización
 Histórica
 Agrupada
id _ c lie n te
fe c h a _ a lta _ c lie n te
fe c h a _ b a ja _ c lie n te
n o m b re
a p e llid o 1
a p e llid o 2
g ru p o _ e d a d
g é n e ro
e s ta d o _ c iv il
in d ic _ c lie n te _ p e rd id o
fe c h a _ c a rg a
AÑ O
num_año
TR IM E S TR E
R E S U M E N AN U AL
C LIE N TE S
id _ c lie n te
a ñ o _ re s u m e n
v a lo r_ in ic io _ a ñ o
v a lo r_ fin a l_ a ñ o
to ta l_ c u e n ta _ in ic io _ a ñ o
to ta l_ c u e n ta _ fin a l_ a ñ o
to ta l_ a ñ o s _ c o m o _ c lie n te
B AS E C LIE N TE LA
AN U AL
id _ zo n a
id _ p ro d u c to
c ó d ig o _ tip o
num_año
c u e n ta _ c lie n te
n u m _ trim e s tre
B AS E C LIE N TE LA
M ES
num_mes
45
id _ zo n a
id _ p ro d u c to
c ó d ig o _ tip o
num_me s
c u e n ta _ c lie n te
Técnicas de Optimización
 Particionamiento Horizontal
 Particiones por filas
 Todos los campos repetidos
en las nuevas tablas
 Uso
 Aislar datos sensibles
 Reducción tamaño tablas
46
R E S U M E N AN U AL
C LIE N TE S
id _ c lie n te
a ñ o _ re s u m e n
c ó d ig o _ r e g ió n
v a lo r_ in ic io _ a ñ o
v a lo r_ fin a l_ a ñ o
to ta l_ c u e n ta _ in ic io _ a ñ o
to ta l_ c u e n ta _ fin a l_ a ñ o
to ta l_ a ñ o s_ c o m o _ c lie n te
R E S U M E N AN U AL
C LIE N TE S - S U R
R E S U M E N AN U AL
C LIE N TE S - N O R TE
id _ c lie n te
a ñ o _ re s u m e n
v a lo r_ in ic io _ a ñ o
v a lo r_ fin a l_ a ñ o
to ta l_ c u e n ta _ in ic io _ a ñ o
to ta l_ c u e n ta _ fin a l_ a ñ o
to ta l_ a ñ o s_ c o m o _ c lie n te
id _ c lie n te
a ñ o _ re s u m e n
v a lo r_ in ic io _ a ñ o
v a lo r_ fin a l_ a ñ o
to ta l_ c u e n ta _ in ic io _ a ñ o
to ta l_ c u e n ta _ fin a l_ a ñ o
to ta l_ a ñ o s_ c o m o _ c lie n te
Técnicas de Optimización
C LIE N TE
id _ c lie n te
fe c h a _ a lta _ c lie n te
fe c h a _ b a ja _ c lie n te
n o m b re
a p e llid o 1
a p e llid o 2
g ru p o _ e d a d
g é n e ro
e s ta d o _ c iv il
in d ic _ c lie n te _ p e rd id o
n u m _ c u e n ta _ d e b ito
n o m b re _ b a n c o _ d e b ito
n u m _ a u to riza c ió n _ d é b ito
ra n g o _ c ré d ito
fe c h a _ u ltim o _ c h e c k _ c re d ito
fe c h a _ c a rg a
 Particionamiento Vertical
 División por columnas
 Posibilidad de columnas
redundantes
 Uso
 Seguridad
 Distribución
Campos con
D a to s n o S e n s ib le s
C LIE N TE
C LIE N TE _ S E G U R O
id _ c lie n te
fe c h a _ a lta _ c lie n te
fe c h a _ b a ja _ c lie n te
n o m b re
a p e llid o 1
a p e llid o 2
g ru p o _ e d a d
g é n e ro
e s ta d o _ c iv il
in d ic _ c lie n te _ p e rd id o
fe c h a _ c a rg a
id _ c lie n te
fe c h a _ a lta _ c lie n te
fe c h a _ b a ja _ c lie n te
n o m b re
a p e llid o 1
a p e llid o 2
n u m _ c u e n ta _ d e b ito
n o m b re _ b a n c o _ d e b ito
n u m _ a u to riza c ió n _ d é b ito
ra n g o _ c ré d ito
fe c h a _ u ltim o _ c h e c k _ c re d ito
 Puede ser que tengamos
Horizontal y Vertical a la
vez
47
Campos con
D a to s S e n s ib le s
Técnicas de Optimización
 Particionamiento por Estabilidad
P Ó LIZA R E S ID E N C IAL
 Basado en frecuencia de cambio
 Uso en Staging Area
 Velocidad de carga
 Separar datos más volátiles minimiza
cambios
n u m _ p ó liza
fe c h a _ in ic io _ p ó liza
fe c h a _ in ic io _ c o b e rtu ra
fe c h a _ fin _ c o b e rtu ra
té rm in o s
c a n tid a d _ p rim a
c a n tid a d _ s e rv ic io
to ta l_ c o b e rtu ra
s u p l_ te rre m o to s
s u p l_ v ie n to
s u p l_ in u n d a c ió n
s u p l_ p ie le s
s u p l_ a rte
s u p l_ jo y a s
s u p l_ o tro s
fe c h a _ c a rg a
P Ó LIZA R E S ID E N C IAL
Claves Primarias
en ambas tablas
48
n u m _ p ó liza
fe c h a _ in ic io _ p ó liza
fe c h a _ in ic io _ c o b e rtu ra
fe c h a _ fin _ c o b e rtu ra
té rm in o s
c a n tid a d _ p rim a
c a n tid a d _ s e rv ic io
to ta l_ c o b e rtu ra
s u p l_ te rre m o to s
s u p l_ v ie n to
s u p l_ in u n d a c ió n
fe c h a _ c a rg a
P Ó LIZA R E S ID E N C IAL
n u m _ p ó liza
fe c h a _ in ic io _ p ó liza
s u p l_ p ie le s
s u p l_ a rte
s u p l_ jo y a s
s u p l_ o tro s
fe c h a _ c a rg a
Metadatos a
Nivel Registro en
ambas tablas
Técnicas de Optimización
F ic h e r o M a s te r V e n ta s
 Claves Alternativas
 Caso especial de derivación
 Creada artificialmente para
identificar entidades
 Habitualmente un entero
 Staging DW  DM
 Hay que mantener un mapeo
Nú m e ro _ fa c tu ra
Id e n tific a d o r F a c tu ra
N ú m e r o _ c lie n te
Id e n tific a d o r C lie n te
...
F ic h e r o M a s te r M a r k e tin g
ID _ c a m p a ñ a
Id e n tific a d o r c a m p a ñ a
ID _ c lie n te
Id e n tific a d o r C lie n te
...
P Ó LIZAS
ID _ P ó liza
Id e n tific a d o r P ó liza
ID _ To m a d o r
Id e n tific a d o r A s e g u ra d o
...
Generación Claves Alternativas
49
M AP E O _ ID _ C LIE N TE
C LIE N TE
c ó d ig o _ s is t_ o r ig e n
id _ c lie n te _ o r ig e n
fe c h a _ in ic io
fe c h a _ fin
n u m _ id _ c lie n te
fe c h a _ c a r g a
n u m _ id _ c lie n t e
fe c h a _ a lta
fe c h a _ b a ja
g ru p o _ e d a d
...
fe c h a _ c a r g a
Técnicas de Optimización
 Pre-Joins
P Ó LIZA_ AUTO M O V IL
V E H ÍC U LO
n u m _ p ó liza
fe c h a _ in ic io _ p ó liza
fe c h a _ in ic io _ c o b e rtu ra
fe c h a _ fin _ c o b e rtu ra
té rm in o s to ta l_ c o lis ió n
d e s c u e n to _ c lie n te
in d ic _ p re c io _ e s p e c ia l
c ó d ig o _ tip o _ p ó liza
...
fe c h a _ c a rg a
n u m _ b a s tid o r
fe c h a _ in ic io _ v e h íc u lo
n u m _ p ó liz a
m a rc a
m o d e lo
...
in d _ A B S
in d _ a irb a g
in d _ E S P
fe c h a _ c a rg a
 Caso especial de Agregación
 Data Warehouse y Data Marts
 Existe redundancia de Información
 Incrementeo uso espacio
 Acceso mucho más rápido
 En el DW
 Mantendremos también las tablas
separadas para cuando no necesitemos la
Join
50
P Ó LIZA_ Y _ V E H ÍC U LO
n u m _ b a s tid o r
fe c h a _ in ic io _ v e h íc u lo
n u m _ pó liza
fe c h a _ in ic io _ c o b e r tu r a
fe c h a _ fin _ c o b e r tu r a
té r m in o s to ta l_ c o lis ió n
d e s c u e n to _ c lie n te
in d ic _ p r e c io _ e s p e c ia l
c ó d ig o _ tip o _ p ó liz a
m a rc a
m o d e lo
...
in d _ A B S
in d _ a irb a g
in d _ E S P
fe c h a _ c a rg a
Técnicas de Optimización
 Cadenas de Datos
 Caso especial de Agregación
 Eficiente para Reporting
 NUNCA en operacionales o
Staging, pero muy útil en DW
y DM
51
Técnicas de Optimización
 Balancear diferentes Factores
R e n d im ie n to
S e g u r id a d
D is tr ib u c ió n
R e c u p e r a c ió n
e rro re s
Ta m a ñ o &
C r e c im ie n to
B a s e s d e D a to s d e l
D a ta W a r e h o s e
E s ta b ilid a d
H is tó r ic o
P la ta fo r m a
Ac c e s o &
N a v e g a c ió n
52
Fundamentos del DWH
Esquemas en Estrella
53
Puntos Fuertes de la Modelización Dimensional
 Coincide con las percepciones de los usuarios
 Estructura predecible, estándar
 Facilita el desarrollo de consultas y análisis
 Las herramientas OLAP pueden hacer suposiciones
 Cada dimensión es equivalente para todos los datos
 Puede ser modificada fácilmente
 Usa perspectivas de modelización comunes
 Simplifica la agregación
54
Modelización Dimensional Regla de Oro
Los Esquemas en Estrella deberían
ser utilizados para cualquier dato
accedido directamente por los
usuarios finales.
55
El Esquema en Estrella
 Hechos
 Dimensiones
 De-normalizado (generalmente)
 Tiene caminos de unión bien diseñados
 Paraleliza la visión de los datos por el usuario
 Son fácilmente modificables
 Simplifica la comprensión y navegación por los
metadatos
 Amplia la elección de herramientas de usuario final
56
Modelización Dimensional
 Tablas de Hechos: contienen datos cuantitativos sobre el
negocio
 La clave primaria es una concatenación de claves de
dimensión, incluyendo el tiempo
 Cada elemento de la clave primaria compuesta es una clave
de integridad referencial hacia una tabla de dimensión.
 Contienen menos atributos, pero muchos más registros
 Tablas de Dimensión: gestionan datos descriptivos que
reflejan las diversas dimensiones del negocio
 Contienen muchos atributos pero menos (pocos) registros
 La clave primaria ‘ayuda’ a componer las claves primarias de
las tablas de hechos
57
Esquema en Estrella (conceptual)
58
Diseño de una Tabla de Hechos
 Elija el PROCESO del Data Mart
 Comience el contenido del data mart a partir de datos de un
solo origen
 Defina la GRANULARIDAD de la tabla de hechos
 Elija el nivel granular más bajo posible
 Transacciones individuales o fotos
 Elija las DIMENSIONES
 Reflejan el contenido de la tabla de hechos y la granularidad
 Elija los HECHOS
 Los hechos individuales y el ámbito de estos hechos deben
ser específicos a la granularidad de la tabla de hechos
59
Identifique el Proceso Departamental
 ¿Cuál es el proceso o función
subyacente para el DM?
 ¿Cuál es el ámbito aproximado del
DM?
 ¿Quién usará el DM?
 ¿A qué preguntas les gustaría a los
usuarios que contestaran los datos del
DM?
60
Determine los Hechos
 ¿Qué hechos están disponibles?
 ¿Cuáles son los datos cuantitativos fundamentales que hay
por debajo?
 Los hechos más útiles son los numéricos y aditivos
 ¿Qué nivel de detalle (granularidad) necesita mantener?
 Serán datos ‘atómicos’ (todo el detalle) o datos agregados
(sumarizados)?
 Si son agregados, cómo (usando qué algoritmo)?
 ¿Para qué propósito de negocio?
 ¿Cuál es la frecuencia de carga de datos requerida?
 ¿Cada transacción?
 ¿Cada hora? ¿Día? ¿Semana? ¿Mes?
61
Tablas de Hechos ‘Sin Hechos’ - EVENTOS
 Eventos: Algo que ‘ha ocurrido’
 Ejemplo: Asistencia de estudiantes a una clase, asientos
de pasajeros de línea aérea o habitaciones de hotel
ocupadas
 Enlace el evento a:
 Tiempo / estudiante / profesor / curso / facilidades
 Típico para crear un ‘hecho vacío’
 Asistencia = 1
 La granularidad es el evento individual de ‘asistencia a
clase’
FUENTE: Kimball, 1998
62
Las Agregaciones Pueden:
 Asegurar la consistencia entre data marts
 Ser hechas reutilizables para mantenerlas de
manera centralizada
 Mejorar el rendimiento del usuario
 Reducir los recursos necesarios para
preparar las consultas (CPU, disco,
memoria)
 Ser utilizadas en base a:
 Frecuencia de acceso
 Efecto del número de registros
63
Determine las Dimensiones
 ¿Qué dimensiones pueden necesitar los usuarios?
 ¿Cuáles son los conceptos fundamentales (entidades o
temas) con los que los usuarios trabajarán?
 Siempre existirán al menos dos dimensiones; quizá
hasta una decena.
 El tiempo será una dimensión prácticamente siempre
 ¿Cuál es el identificador (clave primaria) de cada una de
las dimensiones?
 No_Cliente, ID_Cuenta, NoFactura
 Los atributos de la dimensión se convierten en las
cabeceras de los registros SQL
64
Para Cada Tabla de Dimensión
 Establezca la clave primaria para cada registro
dimensional
 Use la clave primaria como una parte de la clave
compuesta de la tabla de hechos
 Identifique los atributos de interés para los usuarios
 ¿Qué atributos deben ser de-normalizados?
 ¿Qué otros atributos podrían tener valores significativos?
 ¿Hay alguna oportunidad de incluir datos ‘de fuera’?
¿Cuáles?
 Ayúdese de los valores reales contenidos en los atributos
65
La Dimensión de Tiempo
 Debe ser día a día durante 5-10 años
 Separe los campos de semana, mes, día, año,
día de la semana, vacaciones, estaciones, etc.
 Trimestres naturales y fiscales
 Créela como una sola tabla en el DWH
 Cargue el contenido en los DM a medida que se
necesiten
66
Establezca Relaciones
 Dibuje la relación visualmente
 Identifique la cardinalidad (1-N)
 Entre la tabla de hechos . . . y cada tabla de
dimensión
 “Una Imagen vale más . . .”
67
Métodos para Identificar Dimensiones y Hechos
 Informes de Concepto
 Reuniones y Entrevistas
 Requerimientos Especiales del Proyecto
 Documentos sobre Ámbito del Proyecto
 Peticiones de Información
 ‘Cartas a los Reyes Magos’
 Modelos y Bases de Datos Existentes
 Informes Actuales (y Deseados)
68
Ejemplo:
Intereses de la División Financiera
 La división financiera ha preparado la siguiente lista de
funcionalidades deseables en el data mart.
 Muchos de estos datos son información de cliente /
demográfica.
 Nos permitirá evaluar el impacto de costes en nuestros
clientes, ubicación y uso por nuestros clientes, costes
incurridos por ubicación para servir a nuestros clientes y
otros tipos de evaluaciones financieras relativas a costes,
uso, etc.
 Este tipo de información será muy valiosa para dirigir los
aspectos financieros y políticos de las planificaciones y
soluciones futuras a los problemas actuales.
 Esta información nos permitirá contestar mejor a las
importantes preguntas que aparecerán durante ese
proceso.
69
Ejemplo:
Frase de Ejemplo de Misión
Capture datos de nuestro sistema para realizar
evaluaciones por zonas de nuestros clientes,
intereses y beneficios y para asesorar el
impacto de costes sobre nuestra base de
clientes.
70
Ejemplo:
Preguntas a la División Financiera
1. Datos demográficos de nuestros clientes - el tipo
de datos que aparece en un censo (tipo de
vivienda, valor de la vivienda, ocupación, sexo,
educación, ingresos, etc.) Puede ser usado para
enviar mensajes oficiales, evaluación de intereses
de penalización, y mercado objetivo.
2. Clientes por clase de interés – definición por
clientes residenciales, comerciales, industriales,
gobierno y multifamiliares.
3.
71
Beneficio demográfico por cliente y consumo –
como valor de la vivienda, ingresos o educación.
Ejemplo:
Preguntas a la División Financiera (2)
4. Información sobre el servicio al cliente – incluyendo beneficio
por los diferentes tipos de intereses y cobros por zona
geográfica, beneficio y consumo.
5. Beneficio total por clase de cliente y categoría de intereses – a
lo largo de los últimos cinco años. ¿Qué clases de clientes dan
más beneficio?
6. Presupuesto del año en curso por zona – debe mostrar el
presupuesto actual y en qué áreas se han ido incurriendo esos
costes.
7. Valor de activos por zona – un informe que muestre el valor
depreciativo de los activos propios por zona.
72
Ejemplo:
El Esquema Financiero en Estrella
73
Fundamentos del DWH
Procesos y Estrategias de Carga del DWH
74
Mapeo de Datos
 Mapeo LÓGICO  describe cómo ir desde donde se encuentra
hasta donde quiere ir
 Mapeo FÍSICO  Indica las rutas, baches, desvíos atajos de la
carretera
 TRANSPORTE  Decida si está conduciendo un coche deportivo o
un camión de recogida de chatarra
 PLANIFICACIÓN  Indica cuándo saldrá y cuánto espera que le lleve
llegar al destino
75
Soluciones de Extracción, Transformación y Carga de
Datos (ETL)
 Aproximación de primera generación (o crecimiento
‘casero’)
 Mapean origen a destino con capacidades variables
de transformación y limpieza
 Generan código o directamente deben programarse
 Suelen controlar metadatos limitados
FUENTE: Doug Hackney, 1998
76
Plataformas de Integración de Datos
 Soluciones integradas
 Capacidad de implantación a nivel corporativo
 Metadatos completos, abiertos y extensibles
 Abanico de transformaciones y reglas de negocio
 Análisis, entrega y planificación integradas
 Gestión Ad-hoc de agregaciones
 Monitorización y Auditoría integradas
 Funciones avanzadas de Calidad de Datos
 Versionados, despliegues inteligentes
77
Proceso de Diseño
1. CREACIÓN DE
REPOSITORIO
4. CREACIÓN DE
MAPPINGS
2. IMPORTACIÓN DE
DEFICIONES DE ORÍGENES
Def Origen
Mapeo
Def Destino
78
3. CREACIÓN DE ESQUEMA
DESTINO
Transformaciones Más Comunes
 Creación de valores por defecto para los nulos
 Gestión de fechas
 Selección o filtrado de datos origen
 Unión de orígenes heterogéneos
(SAP+Ficheros+Tablas+…)
 Normalización de los ficheros de datos
 Generación de esquemas en estrella
 Creación de estrategias de actualización
 Creación y actualización de agregaciones
 Creación de dimensiones ‘slowly-changing’
79
Algunas Transformaciones
Selección de datos del Origen representa la consulta o primer filtrado/ordenación de los
datos origen
Normalización convierte registros de orígenes relacionales o VSAM a registros
normalizados (cláusulas OCCURS, REDEFINES)
Cálculo de Expresiones/Nuevos Campos realiza cálculos a nivel de campo
Filtro funciona como un filtro condicional de los registros procesados
Agregación realiza cálculos agregados (totales o incrementales)
Rango limita los registros a los primeros o últimos de un rango
Estrategia de Actualización para marcar cada registro como inserción, actualización,
borrado, o registro rechazado
Lookup busca valores complementarios y los pasa a otros objetos
Procedimientos Externos/Almacenados llama a programas desarrollados en otros
lenguajes o en la base de datos
Generador de Secuencia genera nuevos identificadores únicos
80
Trabajo con Transformaciones
Ejemplo: Estrategia de Actualización
ORIGEN
81
EXTRACCIÓN
DEL ORIGEN
LOOKUP
Busca
Job_IDs
en el
destino
T_JOBS
ESTRATEGIA DE
ACTUALIZACIÓN
Basado en la
coincidencia de
Job_IDs,
DESTINO
Diseño de Cargas
 Ordene los datos por secuencias específicas de
carga
 Fuerce a reglas limitadas de integridad de datos
 Busque la carga correcta de cada paso
 Construya estadísticas de carga y mensajes de
error
 Cree el plan para cargas fallidas – qué debe ocurrir
 Produzca la notificación inmediata y automática en
caso de fallos (y/o éxitos) en las cargas
FUENTE: O’Neil, 1997
82
Consejos sobre Planificación de Cargas
 Orden de carga – cargue primero las tablas independientes
 Determine la ventana necesaria de carga – use las horas de
inicio y final para determinar el tiempo necesario para las cargas
 Ejecute cargas en paralelo
 Ejecución concurrente
 Uso de threads, desarrollos multiproceso, paralelización de
base de datos
 No sobrecargue los sistemas origen o destino
 Carque en paralelo un mismo destino
 Datos de sistemas independientes que van al mismo destino
 Cargue múltiples destinos en paralelo
 Datos del mismo origen que vayan a diferentes destinos –
ahorre accesos de lectura
83
Plan de Carga de Destinos




84
Primero, tablas independientes
Después, tablas que no contienen claves foráneas
a otras tablas
Por último, las tablas que contienen claves
foráneas a otras tablas
Tenga cuidado con transacciones de base de
datos e intervalos de commit: los datos pueden
estar cargados pero no validados
Planificación de Cargas
Timing
Planificación
 Ejecución manual

Planificación propio
de la herramienta

Planificador genérico
 Ejecución periódica
 cada n minutos/horas/días
 un máximo de veces/
para siempre
 Ejecución concreta


 En un momento determinado
 Cada primer martes de mes a las 21:43
 Ejecución basada en eventos
 Disponibilidad del fichero origen
 Sólo si la carga anterior acabó bien/mal
85
Control^M, Tareas
Programadas de Windows
Scripts de carga (.bat, .sh, JCL)
Monitorización de Cargas
El mantenimiento de un data mart es una
revisión constante de los procesos para
optimizar valores de datos, pasos, tiempos,
recursos utilizados, accesos a sistemas
origen o destino … debido a los constantes
requerimientos nuevos de los usuarios finales
y el crecimiento en funcionalidad y volumen
de datos que eso conlleva
86
La Creación de un Data Warehouse
Sostenible y sus Data Marts
Incrementales
Requiere la Automatización
de los Procesos de Carga
87
Fundamentos del DWH
Herramientas de Integración de Datos
88
Integración de Datos, más allá del BI
 El ETL se ha quedado relegado a entornos
analíticos
 Aparecen necesidades de Integración de datos
para otro tipo de proyectos
 Externalización
 Migraciones
 Integración de Aplicaciones, BBDD
 Sincronización
 etc
89
¿Un proceso simple?
ETL
90
Ensanchando el concepto de Integración de Datos
EIM, Content
Management
Complex
Data
Exchange
Data Grid
Metadatos
Data
Data
Profiling
High
Availability
Real
Time
Aplicaciones
y
Midleware
(SAP, Siebel, TIBCO, Biztalk, …)
Web
Services
(SOA)
Quality
ETL
Federation
DWL
EAI
BI
Changed
Data
Capture
Mainframe
Auditing
Scheduling
Team Base
Develop/
Bases de Datos
91
(Oracle, Microsoft, IBM, …)
(BO, SAS, Microstrategy,
Hyperion, Cognos …)
Acceso Universal a los Datos
Entrega de datos a Sistemas, Procesos y Organizaciones
Systems
XML, Messaging,
and Web Services
Packaged
Applications
Relational and
Flat Files
Mainframe
and Midrange
92
IBM MQSeries
TIBCO
webMethods
SAP NetWeaver XI
Web Services
XML
JMS
ODBC…
SAP NetWeaver
SAP IDOC
SAP BCI
SAP DMI
SAP BW
Peoplesoft
Oracle Apps
Siebel
SAS…
Oracle
DB2 UDB
DB2/400
SQL Server
Sybase
Informix
Teradata
ODBC
Flat Files
Web Logs …
ADABAS
Datacom
DB2
IDMS
IMS
VSAM
C-ISAM
Complex Files
Tape Formats…
Flat Files, XLS, PPT Oracle
SQL Server
FTP
Encrypted Stream Industry Formats
XML, PDF, DOC, …
Etc etc ….
Informatica PowerCenter
Puntos de interés como plataforma de integración de datos (1/2)

Permite integrar múltiples fuentes de datos heterogéneas

Desarrollo de alta productividad

93

Herramientas de trabajo visuales. Interfaz gráfico totalmente intuitivo

Asistentes de transformación

NO hay generación de código

Detección de errores (debugger integrado)

Reutilización de componentes
Fácil de mantener: Metadatos corporativos

Análisis de Impacto

Análisis del Linaje de datos

Presentación Web Metadatos y Autodocumentación

Metadatos extensibles

Despliegues guiados. Rollback

Versionado
Informatica PowerCenter
Puntos de interés como plataforma de integración de datos (2/2)

Plataforma de Alto rendimiento





Capacidades de Tiempo real


Conectores WebServices, ESB, EAI
Adaptabilidad y escalabilidad

94
Grid computing
Alta Disponibilidad
Tolerancia a fallos y recuperación automática
Soporte a cargas BULK
Plataforma, recursos, volumen y usuarios

Capacidad de expandir las Transformaciones con módulos
externos (PL/Sql, C++, …)


Autodocumentación
Planificador integrado
Informatica PowerCenter
“Trabajar como pienso” Del papel …
TABLA REFERENCIA
MAESTRO
DETALLE
95
DESTINO
DATAWAREHOUSE
UNION
TOTALES
SALIDA_XML
Informatica PowerCenter
… a la práctica
96
Informatica PowerCenter Metadata Reporter
Presentación web de los metadatos del repositorio
97
Fundamentos del DWH
Herramientas de Reporting y Análisis
98
Tipos de Herramientas OLAP
 Herramientas de Consulta y Generación de
Informes
 Consultas Ad Hoc
 Herramientas EIS
 Herramientas de Data Mining
 Herramientas basadas en Web
99
On-Line Analytic Processing - (OLAP)
 Perspectiva ‘multidimensional’ de los datos
 pueden ser vistos como ‘cuadrículas’ de datos
 Consulta interactiva de datos
 seguimiento de un flujo de información mediante múltiples
pasos de “drill-down”
 Los resultados son mostrados como tablas
cruzadas, o tablas pivotantes
 Capacidades de modelización
(incluyendo un motor de cálculos)
 Usado para análisis de previsiones,
tendencias y estadísticas
100
FUENTE:
Neil Raden, 1995
Características del Procesamiento OLAP
 Acceden a volúmenes de datos ENORMES
 Analizan las relaciones entre muchas
dimensiones
 Involucran a datos agregados (ventas,
presupuestos, beneficios, etc.)
 Comparan datos agregados a lo largo del
tiempo
 Presentan los datos en diferentes jerarquías
 Realizan cálculos complejos
 Pueden responder rápidamente a los usuarios
101
Motores Relacionales:
 Almacenan los datos como líneas (registros)
en tablas
 Todos siguen el mismo modelo relacional
 Se accede a ellos a través de un lenguaje
común - SQL
 Tienen aproximadamente el mismo conjunto
de funcionalidades
102
OLAP Relacional:
 Permite el acercamiento mayor a las percepciones de
los usuarios
 NO requiere la regeneración de la base de datos si
cambian las dimensiones
 No requiere más trabajo de front-end
 Posiblemente requiere menos re-trabajo a lo largo del
tiempo
 ESTÁ limitado por un conjunto de funciones
disponibles
 Permite una granularidad más flexible en los datos
103
OLAP Relacional (total):
 Posee un potente generador SQL, capaz de crear
consultas multi-pasada
 Puede crear rangos no triviales, comparaciones y
cálculos de porcentajes respecto al total
 Genera SQL optimizado, con extensiones
 Usa metadatos para modelos / consultas
 Está siendo promocionado por los fabricantes de
BBDD
104
OLAP Multidimensional
 Refleja los pensamientos de los usuarios sobre la
actividad del negocio
 Hace referencia a cubos de datos
 Los cubos de más de tres dimensiones se conocen
como hipercubos
 El modelo de datos representado por el hipercubo
es un modelo multidimensional
 Cualquier base de datos que pueda almacenar y
representar ese modelo es una BD multidimensional
FUENTE: O’Neil, 1997
105
Bases de Datos Multidimensionales:
el ‘HiperCubo’
Ti
m
Región
Territorio
Vendedor
Etc.
106
Product
MÁS:
e
Customer
OLAP Multidimensional
 Normalmente almacena los datos como vectores
internos
 Proporciona un gran rendimiento ante las consultas
 Porque los datos han sido preparados previamente
dentro de la estructura
 A veces limitado a un número concreto de celdas del
cubo
 Dispone de librerías especiales de funciones
 Cambios en la estructura dimensional pueden requerir
la regeneración del cubo
 Requiere recursos que administren la generación de
las estructuras
107
. . . La ‘Zona de Guerra’
 MOLAP
 ROLAP
 Propietario (SQL)
 SQL ‘Estándar’
 Vectores/Cubos
 Tablas/Registros
 Respuesta muy rápida
 Respuesta más lenta
 Consultas de SQL flexibles Consultas predefinidas
 Funciones especiales
 Funciones limitadas
 Uso de perfiles existentes  Nuevos perfiles de
desarrollo
108
Argumentos de MOLAP contra ROLAP
 Los gestores de bases de datos relacionales no
gestionan las relaciones multidimensionales con
eficiencia
 Inherentemente de dos dimensiones
 El SQL no es obvio para los usuarios finales
 Las uniones múltiples y el pobre rendimiento son un
serio problema
 Las tablas denormalizadas absorben el rendimiento y
los recursos
109
Argumentos de ROLAP contra MOLAP
 Los cubos ofrecen niveles limitados de detalle
 No están de acuerdo con el modelo dimensional
 Las MDDs no disponen de un un método de acceso
estándar (como SQL)
 No se pueden cambiar las dimensiones sin regenerar
completamente el cubo
 El ámbito de cada producto y su funcionalidad para el
soporte a decisiones pueden variar ampliamente
 Cada herramienta es prácticamente de una categoría
diferente
110
Data Mining
 Análisis del Warehouse
 Comienza con una hipótesis
 Busca aquellos datos que soportan esa hipótesis.
 Muestra los clientes mayores que (asumimos que) compran
los artículos más caros
 Data mining
 El proceso crea la teoría en base a la navegación
automática por los datos
 ¿Quién compra realmente los artículos más caros?
 ¿Cuáles son sus nombres para el mercado indicado?
FUENTE: Computerworld, March 29, 1999
111
Herramientas de Data Mining:
 Requieren datos detallados históricos
 Requieren una calidad de datos muy alta
 Buscan patrones de comportamiento
 Necesitan una selección equilibrada de
variables
FUENTE: ComputerWorld, Mar 29, 1999
112
Selección de Herramientas Finales:
 Debería ocurrir MÁS TARDE en el proceso
 La CLAVE de la selección de la herramienta son los usuarios
finales: es la única parte que verán de todo el proyecto de DW
 Enfóquese hacia los requerimientos que solucionan problemas
técnicos y de negocio importantes para diferenciarlas
 Involucre a los usuarios finales que usarán las herramientas
 Compruebe sus funciones, facilidad de uso, integración,
metadatos, cuota de mercado y estabilidad
FUENTE: O’Neil, 1997 (y others)
113
Múltiples Necesidades = Múltiples
Herramientas
 La realidad del data mart es que
necesitará múltiples herramientas para
dar soporte a los diferentes usuarios
 Use un número manejable de estas
herramientas
 Estas herramientas deberían ser
consideradas en los cambios de
tecnología y necesidades de usuarios
114
Sin Datos de Calidad
todo lo que Tenemos
son Opiniones
115
116
Descargar

Creando el próximo Data Warehouse: Integración y Calidad de Datos