Integración de Datos en la
Organización: Necesidades y
Soluciones
José Abásolo Prieto
[email protected]
Septiembre 27 a Octubre 01 de 2005
Bogotá, Colombia
Objetivo de la charla
+
2
Presentar
una
taxonomía
de
requerimientos y posibles soluciones, que
pueda guiar en la selección de una
arquitectura apropiada a las necesidades
específicas de integración de información en
una organización.
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Agenda
1. Caracterización necesidades de integración.
2. Tecnologías disponibles para hacer integración.
3. Conclusiones.
3
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Caracterización necesidades de
integración
La mayoría de las organizaciones poseen un alto
número de aplicaciones de misión crítica de las
cuales dependen para su normal funcionamiento.
+ Esas aplicaciones están, generalmente,
lógicamente interconectadas.
+ Mantienen datos vigentes (poca o ninguna historia)
y están optimizadas para una función específica.
+ Información fragmentada en diferentes repositorios.
+
4
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Caracterización necesidades de
integración
Aplicaciones soportan consultas locales de tipo
operativo. Ejemplo: “¿Cuántas órdenes pendientes
tenemos en este momento?”.
+ En algunas situaciones se requiere integración
dinámica de
datos operacionales vigentes de
diferentes fuentes. Ejemplo: “¿Cual es el saldo total
de todos los productos de un cliente?”.
+ Información mas estratégica requiere integrar datos
históricos de diferentes fuentes. Ejemplo: “Predecir
comportamiento y valor futuro de un cliente”.
+
5
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Caracterización necesidades de
integración
+
En la era del comercio electrónico, el enfoque CRM
requiere:
–
Visión completa y actualizada de los datos de todas las
interacciones del cliente, tanto presentes como pasadas.
– Convertir datos en inteligencia del cliente.
– Compartir hallazgos con todos los niveles de la
organización.
6
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Tecnologías Disponibles para Hacer
Integración
+
+
+
+
+
7
Entre las principales se encuentran:
Herramientas de integración funcional (EAI:
Enterprise Application Integration).
Bodegas de Datos y herramientas de extracción,
transformación y cargue (ETL).
Herramientas de captura, transformación y flujo
(CTF: Capture, Transform and Flow).
Sistemas para manejo de datos federados (EII:
Enterprise Information Integration).
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Herramientas de Integración
Funcional (EAI)
+
+
Comunicación Punto a Punto.
Solución con mediador:
–
Conjunto de adaptadores y enrutador que mueve
transacciones de negocio en forma de mensajes entre
aplicaciones interconectadas.
– Adaptador para una aplicación es responsable de la lógica
para crear y ejecutar mensajes.
– Los Enrutadores son los encargados de coordinar el flujo de
mensajes basados en reglas de publicación y suscripción.
– Mensajes en
formato estándar independiente de
aplicaciones (XML?). Adaptador convierte en ambas
direcciones.
8
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Herramientas de Integración
Funcional : Comunicación Punto a
Punto
+ Solución relativamente simple.
+ Ideal cuando número de aplicaciones que deben
intercambiar datos es muy reducido y estático.
+ Número de interfaces crece exponencialmente con el
número de participantes.
9
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Integración Punto a Punto
Aplicación A
Aplicación B
Aplicación C
Aplicación D
Tomada de (1) Página 435
10
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Herramientas de Integración
Funcional: Mediador
Mediador EAI
OLTP
Aplicación A
Cola de
Mensajes
OLTP
Adaptador
A
OLTP
Adaptador
B
Cola de
Mensajes
OLTP
OLTP
Aplicación B
OLTP
Cola de
Mensajes
OLTP
Base de Datos A
<Mensaje
XML >
Cola de
Mensajes
OLTP
Base de Datos B
Enrutador <Mensaje
XML >
Tomada de (1) Página 442
11
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Tomado de The Data Warehouse ETL Toolkit
Bodegas de Datos y Herramientas
ETL
+ Datos de diferentes fuentes heterogéneas se integran y
materializan en lo que se llama una Bodega de Datos (Data
Warehouse).
+ La Bodega puede verse como un conjunto de Almacenes de
Datos (Data Marts), cada uno correspondiendo a un tema de
negocio: Mercadeo, Ventas, Recursos Humanos, Financiero, etc.
+ Los Almacenes de Datos pueden estar físicamente separados
en repositorios distintos.
+ Los Almacenes de Datos comparten datos que, si están
físicamente separados, deben mantenerse sincronizados
(“Conformes”).
12
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas de Datos y Herramientas
ETL
Fuentes de Datos
Generador
Cubos
E.T.L.
visualizadorOLAP
Herramienta Extracción
Transformación Cargue
Bodega de Datos
Cubos
Multidimensionales
Indicadores
Minería
13
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas de Datos y Herramientas
ETL
+ Información detallada a nivel de la Bodega.
+ Modelo
de Datos MultiDimensional: Hechos,
dimensiones,
jerarquías
entre
atributos
de
dimensiones.
+ Información
agregada en forma de cubos
multidimensionales para facilitar análisis del tipo:
¿Qué pasó? ¿Qué está pasando? ¿Por qué pasó?
(Análisis OLAP: On-Line Analytic Processing).
14
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Modelo MultiDimensional: Esquema
de Estrella
Dimensión
ALMACEN
IdAlmacen
Nombre
Direccion
Ciudad
Region
Dimensión
PRODUCTO
IdProducto
Nombre
Subcategoria
Categoria
...
15
Tabla de Hechos
VENTAS
IdAlmacen
IdProducto
IdFecha
Cantidad
PesosVendidos
Costo
...
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Dimensión
TIEMPO
IdFecha
Fecha
DiaSemana
Mes
Trimestre
...
Modelo MultiDimensional: Visión de
Cubos
Tiempo
Geografía
16
VENTAS
Producto
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas de Datos y Herramientas
ETL
+ Bodegas tradicionales se actualizan con procesos de ETL en
lote (Batch), generalmente nocturnos, que pueden tardar varias
horas. Actualización puede ser diaria, semanal, quincenal,
mensual ... dependiendo del grado de actualización requerido.
+ Hechos nuevos se añaden. A veces se modifican, si son
acumulativos.
+ De las dimensiones se toman “fotos” (Snapshots) de cómo están
en un punto del tiempo, y se alimentan a la Bodega.
+ Generalmente se lleva historia de evolución de las dimensiones.
17
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas de Datos y Herramientas
ETL
+ ETL, Proceso complejo:
– Evitar duplicados (Por ejemplo, en la dimensión Cliente)
– Asignar llaves surrogadas.
– Manejar dimensiones que cambian lentamente con el tiempo:
Sobrescribir , crear nuevo registro, conservar dos últimos
valores.
– Estandarizar nombres, direcciones.
+ Aumentar la frecuencia del ETL, por ejemplo a varias
veces por día, puede no ser práctico tanto para los
sistemas fuente como para la propia Bodega.
18
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
ETL Convencional
OLTP
Aplicación A
Detección
de cambios
/ Snapshot
Batch
E
DataMart
A
Batch
DataMart
B
T
OLTP
Base de Datos A
L
OLTP
Aplicación B
Detección
de cambios
/ Snapshot
Batch
OLTP
Base de Datos B
Manejo
Dimensiones
Corporativas
Tomada de (1) Página 438
19
Batch
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas de Datos en Tiempo Real
+ Partición en Tiempo Real, con las novedades del día.
+
+
+ Partición histórica, actualizada en lotes (Batch) cada
noche con el ETL tradicional.
20
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas de Datos en Tiempo Real
+ Por cada tabla de hechos en la parte histórica hay
una tabla de hechos, con la misma granularidad y
dimensiones, en la partición en tiempo real.
+ Indexamiento en la parte en tiempo real es mínimo.
+ Posiblemente se mantiene en memoria.
+ Puede crearse una vista que combine la parte
histórica con la de tiempo real.
21
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bodegas en Tiempo Real
Bodega Lógica
Aproximadamente
Tiempo Real
Partición
En
Tiempo Real
A
Batch
Aproximadamente
Tiempo Real
DataMart
A
Partición
En
Tiempo Real
B
Batch
DataMart
B
Tomada de (1) Página 427
22
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Microbatch ETL
+ Similar al ETL convencional, solo que la frecuencia
aumenta (Ejemplo: Cada hora).
+ Alimentan la partición en tiempo real.
+ Una vez al día, las particiones en tiempo real se
pasan a la parte histórica.
23
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Micro Batch ETL
OLTP
Aplicación A
OLTP
Base de Datos A
Detección
de cambios
/ Snapshot
Micro
E
Micro
Batch
T
Batch
L
OLTP
Aplicación B
Detección
de cambios
/ Snapshot
Batch
Manejo
Dimensiones
OLTP
Base de Datos B
Corporativas
Tomada de (1) Página 438
24
Batch
Micro
Micro
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Partición
En
Tiempo Real
A
Batch
DataMart
A
Partición
En
Tiempo Real
B
Batch
DataMart
B
Microbatch ETL
+ Puede afectar rendimiento de sistemas fuente, al
imponer detección de cambios mas frecuente.
+ Buena alternativa para Bodegas cuyos
requerimientos de actualización pueden tolerar
retardos de una hora.
25
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Herramientas de Captura,
Transformación y Flujo (CTF)
+ Intercambios directos entre Bases de Datos, con baja
latencia (pocos segundos).
+ Pueden hacer ciertas transformaciones, elementales
si se comparan con las ofrecidas por herramientas
ETL.
+ Pueden simplificar la retroalimentación de la Bodega
hacia los sistemas fuente (con inteligencia de clientes,
por ejemplo).
26
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Herramientas de Captura,
Transformación y Flujo (CTF)
Bodega Lógica
OLTP
Aplicación A
CTF Tiempo Real/
Transformación
Superficial
Staging
A
Transformaciones
más complejas
Partición
Tiempo
Real
Data Mart
A
Batch
OLTP
OLTP
Base de Datos A
Tomada de (1) Página 445
27
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Tomado de The Data Warehouse ETL Toolkit
Combinación Bodega Tiempo Real /
EAI
Bodega Lógica
ERP
Adaptador
ERP
Mediador EAI
Adaptador
Data Mart
A
Aproximadamente
Tiempo Real
Partición
En
Tiempo Real
A
OLTP
Batch
Enrutador
Base de Datos
ERP
CRM
Adaptador
CRM
Adaptador
Administrador
Dimensión
Cliente
Adaptador
Data Mart
B
Aproximadamente
Tiempo Real
OLTP
Base de Datos
CRM
Adaptado de (1) Página 443
28
Partición
En
Tiempo Real
B
Batch
Administrador
Dimensión
Cliente
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
DataMart
A
DataMart
B
Sistemas para manejo de datos
federados (EII)
+ Ofrecen acceso uniforme a múltiples fuentes de datos
sin cargarlos primero en una Bodega central.
+ Enfocado a consultas.
+ Datos actualizados.
29
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Sistemas para manejo de datos
federados (EII)
Cliente
Cliente
...
Cliente
EII
Metadata
30
Procesador
de
Consultas
Adaptadores
Adaptadores
Fuente 1
Fuente 2
Adaptadores
...
Fuente n
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Tomado de Component Database Systems
Conclusiones
+ Globalización e Internet reducen cada vez mas la
ventana de tiempo disponible para actualizar las
Bodegas de Datos.
+ Inteligencia de negocios requiere una latencia cada
vez menor entre los sistemas OLTP y la Bodega.
+ Información de inteligencia de la Bodega
retroalimenta los sistemas OLTP.
+ El costo y complejidad de las soluciones para reducir
la latencia crece de manera no lineal.
+ Metas y expectativas sobre el grado de actualización
requerido de los datos deben ser realistas.
31
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Conclusiones
+ Bodegas de Datos en Tiempo Real pueden ser una
solución para latencias de hasta unos minutos (5?).
+ Latencias inferiores a 5 minutos requieren de
Sistemas Federados (EII), que trabajen directamente
sobre los sistemas fuente.
+ Si se requiere retroalimentación de la Bodega hacia
los OLTP, CTF o EAI pueden ser la solución.
+ EAI es mas adecuado si el número de aplicaciones a
integrar es importante.
32
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Bibliografía
1. Kimball, R., Caserta, J. “The Data Warehouse ETL
Toolkit”. Wiley. 2004.
2. Stonebraker, M. “Too Much Middleware”. SIGMOD
Record. Vol 31 N° 1, Marzo 2002.
3. Halevy, A.(Editor). “Enterprise Information
Integration: Successes, Challenges and
Controversies”. SIGMOD junio 14-16 2005.
4. Selip, S. “A Single Source of Truth: Creating and
Sustaining Data-Integration Governance and
Stewardship”. Burton Group. Jul 27, 2005.
33
XXV Salón de Informática “Arquitecturas Empresariales de Software” Septiembre 28-Octubre 01 de 2005
Descargar

Arquitectos y Arquitecturas