MINERÍA DE DATOS
Dra. María Josefa Somodevilla García
[email protected]
Facultad de Ciencias de la Computación
Benemérita Universidad Autónoma de Puebla
Inteligencia de negocios o BI (business intelligence)
• Conjunto de estrategias y herramientas enfocadas a la administración y
creación de conocimiento mediante el análisis de datos existentes en
una organización o empresa.
• BI se centra en los conceptos de: datos, información y conocimiento,
Se obtiene mediante el análisis de la información.
“Mayo es el mes más bajo en ventas“
Algo más estructurado o preciso
“Las ventas del mes de Mayo fueron 10000”
Algo vago “10000”
•
Aquí es donde BI entra en juego, ya que al obtener conocimiento del
negocio una vez capturada la información de todas las áreas en la
empresa es posible establecer estrategias y cuales son sus fortalezas y2
debilidades.
Relación de DSS y BI
• El término inteligencia empresarial se refiere al uso de datos en una
empresa para facilitar la toma de decisiones. Abarca la comprensión
del funcionamiento actual de la empresa, bien como la anticipación de
acontecimientos futuros, con el objetivo de ofrecer conocimientos para
respaldar las decisiones empresariales.
• Las herramientas de inteligencia se basan en la utilización de un
sistema de información de inteligencia que se forma con distintos datos
extraídos de los datos de producción, con información relacionada con
la empresa o sus ámbitos y con datos económicos.
3
Contenido
1. Finalidades y Evolución de los Sistemas de
Información
2. Herramientas para la Toma de Decisiones:
diferencias e interrelación.
3. Almacenes de Datos, OLAP y Minería de Datos:
definición e interrelación.
4. Áreas de Aplicación
4
Finalidad de los Sistemas de Información
La información reduce nuestra
incertidumbre (sobre algún aspecto
de la realidad) y, por tanto, nos
permite tomar mejores decisiones
5
Finalidad de los Sistemas de Información
 Inicialmente la finalidad de los sistemas de información era
recopilar información sobre un parte del mundo para ayudar
en la toma de decisiones:




recuentos de cereales en Babilonia, de cacao por los pipiles,
censos civiles y militares romanos o chinos,
libros contables de árabes ,
...
 Actualmente, con la informatización de las organizaciones y
la aparición de aplicaciones software operacionales sobre el
sistema de información, la finalidad principal de los sistemas
de información es dar soporte a los procesos básicos de la
organización (ventas, producción, personal...).
6
Interés Renovado
Una vez satisfecha la necesidad de tener un soporte
informático para los procesos básicos de la organización
(sistemas de información para la gestión).
Las organizaciones exigen nuevas prestaciones de los
sistemas de información
(Sistemas de Información para la Toma de Decisiones).
7
Evolución
 60’s: Informes batch:
 la información es difícil de encontrar y analizar, poco flexible, se
necesita reprogramar cada petición.
 70’s: Primeros DSS (Decision Support Systems) y EIS
(Executive Information Systems):
 basados en terminal, no integrados con el resto de herramientas.
 80’s: Acceso a datos y herramientas de análisis integradas
(conocidas como intelligent business tools):
 Herramientas de consultas e informes, hojas de cálculo, interfaces
gráficos e integrados, fáciles de usar.
 Acceden a las bases de datos operacionales.
 90’s: Almacenes de Datos y herramientas OLAP.
 00’s: Herramientas de Minería de Datos.
8
Herramientas para la Toma de Decisiones
Han aparecido diferentes herramientas de negocio o DSS que
coexisten: EIS, OLAP, consultas & informes, minería de datos, ...
 ¿Cuál es la diferencia entre EIS y OLAP?
 ¿Cuál es la diferencia entre “informes avanzados” y OLAP?
 ¿Cuál es la diferencia entre OLAP y Minería de Datos?
 ¿Qué interrelaciones existen entre todas estas herramientas?
9
Herramientas para la Toma de Decisiones
¿Cuál es la diferencia entre EIS y OLAP?
 Un EIS (Executive Information System) es un sistema de información y un
conjunto de herramientas asociadas:
 Proporciona a los directivos acceso a la información de estado y sus actividades de
gestión.
 Está especializado en analizar el estado diario de la organización (mediante
indicadores clave) para informar rápidamente sobre cambios a los directivos.
 La información solicitada suele ser, en gran medida, numérica (ventas semanales,
nivel de stocks, balances parciales, etc.) y representada de forma gráfica al estilo de
las hojas de cálculo.
 Las herramientas OLAP (On-Line Analyitical Processing) son más genéricas:
 Funcionan sobre un sistema de información (transaccional o almacén de datos)
 Permiten realizar agregaciones y combinaciones de los datos de maneras mucho más
complejas y ambiciosas, con objetivos de análisis más estratégicos.
10
Herramientas OLAP
Categoría
Trimestre
Ventas
Refrescos
T1
2000000
Refrescos
T2
1000000
Refrescos
T3
3000000
Refrescos
T4
2000000
Jugos
T1
1000000
Jugos
T2
1500000
Jugos
T3
8000000
Jugos
T4
2400000
Categoría
Ventas
Refrescos 8000000
Jugos
12900000
11
Herramientas OLAP
Categoría
Refrescos
Trimestre
Ventas
T1
2000000
Refrescos
T2
1000000
Refrescos
T3
3000000
Refrescos
T4
2000000
Jugos
T1
1000000
Jugos
T2
1500000
Jugos
T3
8000000
Jugos
T4
2400000
Categoría
Trimestre
Refrescos
T1
Enero
Refrescos
T1
T1
Febrero
500000
Marzo
500000
Refrescos
Mes
Ventas
1000000
Cada grupo (categoría-trimestre) de la
consulta original se disgrega en dos
nuevos grupos (categoría-trimestre-mes).
12
Herramientas OLAP
Ventas
Ventas
$5,2
$1,9
$2,3
$1,1
$8,9
$0,75
$4,6
$1,5
$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5
Store 1
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics
PIVOT
Store 2
Q2
Q1
Productos Store1 Store2
Productos
Q1
Q2
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics
$5,2
$1,9
$2,3
$1,1
$5,6
$1,4
$2,6
$1,1
$8,9
$0,75
$4,6
$1,5
$7,2
$0,4
$4,6
$0,5
13
Herramientas OLAP
Ventas
Ventas
$5,2
$1,9
$2,3
$1,1
$8,9
$0,75
$4,6
$1,5
$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5
Productos Store1
Q1
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
$5,2
$1,9
Q2
Q2
Q1
Productos Store1 Store2
Electronics
Toys
$8,9
$0,75
SLICE
& DICE
14
Informes Avanzados
MySQL
SELECT year, country, product,
SUM(profit)
FROM Sales
GROUP BY year, country, product
WITH ROLLUP;
Year
Country
Product
SUM(profit)
2000
Finland
Computer
1500
2000
Finland
Phone
100
2000
Finland
NULL
1600
2000
India
Calculator
150
2000
India
Computer
1200
2000
India
NULL
1350
2000
US A
Calculator
75
2000
USA
Computer
1500
2000
USA
NULL
1575
2000
NULL
NULL
4525
2001
Finland
Phone
10
2001
Finland
NULL
10
2001
US A
Calculator
50
2001
US A
Computer
2700
2001
US A
TV
2001
US A
NULL
3000
2001
NULL
NULL
3010
NULL NULL
NULL
7535 15
250
Herramientas para la Toma de Decisiones
¿Cuál es la diferencia entre “informes avanzados” y OLAP?
 Los sistemas de informes o consultas avanzadas:
 están basados, generalmente, en sistemas relacionales u objeto-relacionales,
 utilizan los operadores clásicos: concatenación, proyección, selección,
agrupamiento, … (en SQL y extensiones).
 el resultado se presenta de una manera tabular.
 Las herramientas OLAP
 Están basadas, generalmente, en sistemas o interfaces multidimensionales,
 Utilizando operadores específicos (además de los clásicos): drill, roll, pivot, slice
& dice, …
 El resultado se presenta de una manera matricial o híbrida.
16
Herramientas para la Toma de Decisiones
¿Cuál es la diferencia entre OLAP y Minería de Datos?
 Las herramientas OLAP
 proporcionan facilidades para “manejar” y “transformar” los datos.
 producen otros “datos” (más agregados, combinados).
 ayudan a analizar los datos porque producen diferentes vistas de los
mismos.
 Las herramientas de Minería de Datos:
 son muy variadas: permiten “extraer” patrones, modelos, descubrir
relaciones, regularidades, tendencias, etc.
 producen “reglas” o “patrones” (“conocimiento”).
17
Herramientas para la Toma de Decisiones
¿Qué interrelaciones existen entre todas estas herramientas?
Fuentes
Internas
Herramientas
de consultas e
informes
Base de Datos
Transaccional
Herramientas
EIS
ETL
Fuente de
Datos 1
texto
Almacén
de Datos
Interfaz y
Operadores
Herramientas
OLAP
Fuente de
Datos 3
HTML
Fuente de
Datos
Fuentes
Externas
Herramientas de
Minería de
Datos
 La aparición de algunas de ellas han hecho cambiar la manera de trabajar de
otras herramientas.
18
Almacenes de Datos
El almacén de datos es ahora el “sistema de información
central” en todo este proceso.
Un almacén de datos es una colección de datos:
 orientada a un dominio
 integrada
 no volátil
 variante en el tiempo
para ayudar en la toma de decisiones [Immon 1992, 1996]
19
Arquitectura de un Almacén de Datos
hecho
Marca
Descripción
Semana
Categoría
Departamento
Mes
Nro_producto
Trimestre
Día
Año
Tipo
importe
unidades
dimensión
Almacén
medidas
Ciudad
Tipo
atributos
Región
20
Arquitectura de un Almacén de Datos
• Se pueden obtener hechos a diferentes niveles de
agregación:
• obtención de medidas sobre los hechos parametrizadas por
atributos de las dimensiones y restringidas por condiciones
impuestas sobre las dimensiones
HECHO: “El primer
trimestre de 2004 la
empresa vendió en
Valencia por un importe
de 22.000 euros del
producto pepsi 33 cl.”
LUGAR:
Murcia
Alicante
ciudad Zaragoza
Ventas en
miles de
Eurosos
Madrid
Barcelona
Valencia
PRODUCTO:
artículo
Zumo Piña 1l. 17
Jerarquía de dimensiones:
PRODUCTO
Categoría
Cola 33cl. 57

Jabón Salitre 93
Gama
Pepsi 33cl 22
Cerveza Kiel 20 cl 5
\
Leche Entera 1l 12
1 2 3 4 1 2
2005
2004
Prov.
/
Artículo
LUGAR
TIEMPO
País
Año

/
Ciudad
Trimestre \

Supermercado
TIEMPO:
trimestre
 Un nivel de agregación para 3 dimensiones se denomina cubo
\
/
\
Mes Semana
\
/
Día
|
Hora
21
Almacenes de Datos
Los almacenes de datos y las técnicas OLAP son maneras
efectivas y tecnológicamente avanzadas para integrar,
transformar y combinar los datos para facilitar al
usuario o a otros sistemas el análisis de la información.
 La tecnología OLAP generalmente se asocia a los almacenes
de datos, aunque:
 Podemos tener Almacenes de Datos sin OLAP y viceversa.
22
Minería de Datos
La Minería de Datos es un conjunto de técnicas de análisis de datos
que permiten:
 Extraer patrones, tendencias y regularidades para describir y
comprender mejor los datos.
 Extraer patrones y tendencias para predecir
comportamientos futuros.
Debido al gran volumen de datos este análisis ya no puede ser
manual (ni incluso facilitado por herramientas de almacenes de
datos y OLAP) sino que ha de ser (semi-)automático.
23
Minería de Datos
La Minería de Datos se diferencia claramente del resto
de herramientas en el sentido de que:
 no transforma y facilita el acceso a la
información para que el usuario la analice más
fácilmente.
la minería de datos “analiza” los datos
24
Minería de Datos
 La minería de datos es sólo una etapa del proceso de
extracción de conocimiento a partir de datos.
 Este proceso consta de varias fases:
 Preparación de Datos (selección, limpieza, y transformación),
Minería de Datos, Evaluación, Difusión y Uso de Modelos.
 incorpora muy diferentes técnicas
 árboles de decisión, regresión lineal, redes neuronales artificiales,
técnicas bayesianas, máquinas de soporte vectorial, etc.
 de campos diversos:
 aprendizaje automático e I.A., estadística, bases de datos, …
 aborda una tipología variada de problemas:
 clasificación, categorización, estimación/regresión, agrupamiento, ...
25
Ejemplo de Modelo Predictivo
• Queremos saber si jugar o no jugar esta tarde al tenis.
• Hemos recogido datos de experiencias anteriores:
Example
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Outlook
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
PlayTennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
26
Ejemplo de Modelo Predictivo
• Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de
decisión, señalando el atributo “PlayTennis” como la clase (output).
• El resultado del algoritmo es el siguiente modelo:
Outlook?
Sunny
Humidity?
High
NO
Rain
Overcast
Wind?
YES
Normal
YES
Strong
NO
Weak
YES
• Ahora podemos utilizar este modelo para predecir si esta tarde jugamos
o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO.
27
Ejemplo de Modelo Descriptivo:
• Queremos categorizar nuestros empleados.
• Tenemos estos datos de los empleados:
#Ej
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Sueldo
10000
20000
15000
30000
10000
40000
25000
20000
20000
30000
50000
8000
20000
10000
8000
Casado
Sí
No
Sí
Sí
Sí
No
No
No
Sí
Sí
No
Sí
No
No
No
Coche
No
Sí
Sí
Sí
Sí
Sí
No
Sí
Sí
Sí
No
Sí
No
Sí
Sí
Hijos
0
1
2
1
0
0
0
0
3
2
0
2
0
0
0
Alq/Prop
Alquiler
Alquiler
Prop
Alquiler
Prop
Alquiler
Alquiler
Prop
Prop
Prop
Alquiler
Prop
Alquiler
Alquiler
Alquiler
Sindic.
No
Sí
Sí
No
Sí
Sí
Sí
Sí
No
No
No
No
No
Sí
No
Bajas/Año
7
3
5
15
1
3
0
2
7
1
2
3
27
0
3
Antigüedad
15
3
10
7
6
16
8
6
5
20
12
1
5
7
2
Sexo
H
M
H
M
H
M
H
M
H
H
M
H
M
H
28
H
Ejemplo de Modelo Descriptivo:
• Pasamos estos ejemplos a un algoritmo de clustering K-means.
• Se crean tres clusters, con la siguiente descripción:
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Bajas/Año : 8
Antigüedad : 8
Sexo :
H -> 0.6
M -> 0.4
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche :
Sí -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. :
Sí -> 1.0
Bajas/Año : 2
Antigüedad : 8
Sexo :
H -> 0.25
M -> 0.75
cluster 3: 6 examples
Sueldo : 18833
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. :
No -> 0.67
Sí -> 0.33
Bajas/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
29
Almacenes de Datos y Minería de Datos
¿Es necesario tener Almacenes de datos para realizar
Minería de datos?
 Los almacenes de datos no son imprescindibles para hacer
extracción de conocimiento a partir de datos.
 se puede hacer minería de datos sobre un simple archivo de datos.
 Las ventajas de organizar un almacén de datos para realizar
minería de datos se amortizan sobradamente a medio y largo
plazo cuando:




tenemos grandes volúmenes de datos, o
éstos aumentan con el tiempo, o
provienen de fuentes heterogéneas o
se van a combinar de maneras arbitrarias y no predefinidas.
30
Relación de DM con Otras Disciplinas
La minería de datos no es una extensión de los sistemas de
informes inteligentes o sistemas OLAP (On-Line Analytical
Processing).
La minería de datos aspira a más
Otras herramientas, p.ej. consultas sofisticadas o análisis
estadístico, pueden responder a preguntas como:
“¿Han subido las ventas del producto X en junio?”
“¿Las ventas del producto X bajan cuando promocionamos el producto Y?”
Pero sólo con técnicas de minería de datos podremos responder a
preguntas del estilo:
“¿Qué factores influyen en las ventas del producto X?”
31
“¿Cuál será el producto más vendido si abrimos una delegación en México?
Comparación entre sistemas tradicionales y DSS
Sistema Tradicional (OLTP)
Sistemas para la toma de decisiones(DW)
- almacena datos actuales
- almacena datos históricos
- almacena datos de detalle
- almacena datos de detalle
y datos agregados a distintos niveles
-bases de datos medianas
(100Mb-1Gb)
- bases de datos grandes
(100Gb-1Tb)
- los datos son dinámicos (actualizables)
- los datos son estáticos
- los procesos (transacciones) son repetitivos
- los procesos no son previsibles
- el número de transacciones es elevado
- el número de transacciones es
bajo o medio
- tiempo de respuesta pequeño (segundos)
- tiempo de respuesta variable
(segundos-horas)
- dedicado al procesamiento de transacciones
- dedicado al análisis de datos
- orientado a los procesos de la organización
- orientado a la información relevante
- soporta decisiones diarias
- soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos)
- sirve a técnicos de dirección
32
Áreas de Aplicación
• Toma de Decisiones (banca-finanzas-seguros, márketing,
políticas sanitarias/demográficas, ...)
• Procesos Industriales (componentes químicos, compuestos,
mezclas, esmaltes, procesos, etc.)
• Investigación Científica (medicina, astronomía, meteorología,
psicología, ...).
• Soporte al Diseño de Bases de Datos.
• Reverse Engineering (dada una base de datos, desnormalizarla
para que luego el sistema la normalice).
• Mejora de Calidad de Datos.
• Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).
33
Descargar

Curso El Salvador