Almacenes de Datos
(Data Warehouse)
MC Beatriz Beltrán Martínez
Primavera 2015
Primavera 2015
FCC - BUAP
• Un Almacén de Datos (o Data Warehouse) es
una gran colección de datos que recoge
información de múltiples sistemas, y cuya
actividad se centra en la Toma de Decisiones en
vez de en su captura.
• Una vez reunidos los datos de los sistemas
fuentes se guardan durante mucho tiempo, lo
que permite el acceso a datos históricos; así los
almacenes de datos proporcionan al usuario una
interfaz consolidada única para los datos, lo que
hace más fácil escribir las consultas para la toma
de decisiones.
MC Beatriz Beltrán Martínez
Definición
52
Datos operacionales
Orientado a aplicación
Actual
Detallada
FCC - BUAP
Almacén de Datos
Datos del negocio para
Información
Orientado al sujeto
Actual + Histórico
Detallada + Resumida
MC Beatriz Beltrán Martínez
Base de Datos Operacional
Primavera 2015
Diferencias
53
Primavera 2015
FCC - BUAP
• Integración de bases de datos heterogéneas
(relacionales, documentales, geográficas, archivos,
etc.)
• Ejecución de consultas complejas no predefinidas
visualizando el resultado en forma gráfica y en
diferentes niveles de agrupamiento y totalización de
datos.
• Agrupamiento y desagrupamiento de datos en
forma interactiva.
• Análisis del problema en términos de dimensiones.
• Control de calidad de datos.
MC Beatriz Beltrán Martínez
Funcionalidades
54
Primavera 2015
FCC - BUAP
• Organizado en torno a temas. La información se
clasifica en base a los aspectos que son de
interés para la empresa.
• Integrado. Es el aspecto más importante. La
integración de datos consiste en convenciones
de nombres, codificaciones consistentes, medida
uniforme de variables, etc.
• Dependiente del tiempo. Esta dependencia
aparece de tres formas:
• La información representa los datos sobre un
horizonte largo de tiempo.
MC Beatriz Beltrán Martínez
Características
55
Primavera 2015
FCC - BUAP
• Cada estructura clave contiene (implícita o
explícitamente) un elemento de tiempo (día,
semana, mes, etc.).
• La
información,
una
vez
registrada
correctamente, no puede ser actualizada.
• No volátil. El Almacén de Datos sólo permite
cargar nuevos datos y acceder a los ya
almacenados, pero no permite ni borrar ni
modificar los datos.
MC Beatriz Beltrán Martínez
Características
56
Primavera 2015
Arquitectura
Reformateo
Actualizaciones
Nuevos datos
Datos
Metadatos
OLAP
DSSI/EIS
Minería
de Datos
MC Beatriz Beltrán Martínez
Almacén de
Datos
Limpieza
Otras entradas
De datos
FCC - BUAP
Salvado de
datos limpios
57
Primavera 2015
FCC - BUAP
1. Datos operacionales. Origen de datos para el
componente de almacenamiento físico del
Almacén de Datos.
2. Extracción de datos. Selección sistemática de
datos operacionales usados para formar parte del
Almacén de Datos.
3. Transformación de datos. Procesos para sumarizar
y realizar cambios en los datos operacionales.
4. Carga de datos. Inserción de datos en el Almacén.
5. Almacén. Almacenamiento físico de datos de al
arquitectura Data Warehouse.
6. Herramienta de acceso. Para proveer acceso a los
datos.
MC Beatriz Beltrán Martínez
Arquitectura
58
Región
Producto
Región 1
P120
P121
P122
P124
…
Región 2
Región 3
…
MC Beatriz Beltrán Martínez
• Una hoja de cálculo constituye una matriz.
FCC - BUAP
Primavera 2015
Modelado de Datos
59
Primavera 2015
Modelado de Datos
P120
P121
P122
P123
…
Región 1
Región 2 Región 3
…
Trimestre
Producto
Región
Trim 3
Trim 2
Trim 1
MC Beatriz Beltrán Martínez
FCC - BUAP
• Añadiendo una dimensión se tendría una matriz
tridimensional.
60
Almacén
Producto
Tiempo
Primavera 2015
FCC - BUAP
• Las herramientas de explotación OLAP de los
almacenes de datos han adoptado un modelo
multidimensional de datos.
MC Beatriz Beltrán Martínez
Modelado de Datos
61
Tablas de Dimensiones
Dim1
Hecho
Dim3
Id_Dim1
…
Id_Dim1
Id_Dim2
Id_Dim3
Id_Dim4
Valor1
valor2
Id_Dim3
…
Dim2
Id_Dim2
…
Tabla de Hechos
Dim40
Id_Dim4
…
Primavera 2015
FCC - BUAP
• Tres son los esquemas multidimensionales
comunes:
• Esquema en estrella: formado por una tabla de
hechos con una única tabla para cada
dimensión.
MC Beatriz Beltrán Martínez
Modelado de Datos
62
T1
Dim1
Id_t1
…
Id_Dim1
Id_t1
Id_t2
T2
Id_t2
…
Dim2
Id_Dim2
…
Hecho
Dim3
T3
Id_Dim1
Id_Dim2
Id_Dim3
Id_Dim4
Valor1
valor2
Id_Dim3
id_t3
Id_t3
…
Tabla de Hechos
Dim4
T4
Id_Dim4
Id_t4
Id_t4
…
Primavera 2015
FCC - BUAP
• Esquema en copos: es una variante del
esquema de estrella en el que las tablas
dimensionales de este último se organizan
jerárquicamente mediante su normalización.
MC Beatriz Beltrán Martínez
Modelado de Datos
63
Hecho 1
T1
Dim1
Id_t1
…
Id_Dim1
Id_t1
Id_t2
T2
Id_t2
…
Id_Dim1
Id_Dim2
Id_Dim3
Valor1
valor2
Dim3
Hecho 2
Id_Dim3
…
Id_t2
Id_t4
Id_Dim3
Id_Dim4
Valor3
Dim2
T3
Id_Dim2
id_t3
Id_t3
…
Dim4
T4
Id_Dim4
Id_t4
Id_t4
…
Primavera 2015
FCC - BUAP
• Constelación de hechos: es un conjunto de tablas
de hechos que comparten algunas tablas de
dimensiones.
MC Beatriz Beltrán Martínez
Modelado de Datos
64
Id_producto
Num_producto
Descripción
Marca
subcategoría
Categoría
Departamento
Peso
Tipo_envase
…
Tabla de Hechos
Ventas
Id_fecha
Id_almacén
Id_producto
Importe
Unidades
Num_cliente
Primavera 2015
Id_fecha
Día
Semana
Mes
Año
Día_semana
Trimestre
Festivo
…
Almacén
Id_almacén
Num_almacén
Nombre
Dirección
Ciudad
País
Teléfono
Superficie
Tipo_almacén
…
FCC - BUAP
Producto
Tiempo
MC Beatriz Beltrán Martínez
Ejemplo
Tablas de Dimensiones
65
Primavera 2015
FCC - BUAP
• Realizar un ejemplo que explique como sería la
construcción de un almacén de datos, donde
señale, como:
• Extraer los datos.
• Limpiar los datos.
• Transformar de los datos.
• Consolidar los datos.
• Cargar los datos.
• Actualizar los datos.
MC Beatriz Beltrán Martínez
Tarea
66
Descargar

Almacenes de Datos (Data Warehouse)