Carlos López Vázquez 2004
La Hipótesis que faltó:
Calidad de Datos
Carlos López
[email protected]
Universitario Autónomo del Sur
1
Carlos López Vázquez 2004
Plan de la presentación
2
Descripción de algunas situaciones
 ¿Qué puede hacerse?
 ¿Qué puede lograrse?
 ¿Qué me aportaría el UAS?
 Preguntas (y si es posible...respuestas)

Alguna terminología...
Carlos López Vázquez 2004

3



El idioma español tiene limitaciones en
este aspecto...
Quality
Precision
Accuracy
Calidad
 Precisión
 ¿Correctitud?

Características de Integridad
Correctitud
 Accesibilidad
 Comprensivos
 Consistentes
 Vigentes
 Relevantes
Carlos López Vázquez 2004

4
Fuente: Stewart and Fenton (1999)
¿Le suena esto familiar?
Carlos López Vázquez 2004

5
Yo sé que nuestro /sistema/base de datos/
warehouse/ tiene algunos problemas con
calidad de datos, pero no sé cómo o dónde
comenzar.
Frases célebres...
No puedo usar esta aplicación. Fíjese: ella
sabe que este valor es típicamente menor a
1500, pero no me deja ingresar este caso de
1830. ¡Este sistema es inútil!(1)
 El sistema trabaja perfectamente.
Obviamente, si se le cargan datos erróneos
¿qué puede hacer la computadora?(1)
Carlos López Vázquez 2004

6
(1) Fuente: Bobrowski, Marré y Yankelevich
Frases célebres...
No sé. Lo que puedo decirle es que a mi no
me sirve. Me hace perder más tiempo
buscando datos que antes(1)
 No es nuestro problema. El sistema
funciona, nosotros detectamos los datos
cuando se cargan - y siguiendo SUS
especificaciones - . Es un problema de los
usuarios: ud. debería indicarles que lo usen
bien(1)
Carlos López Vázquez 2004

7
(1) Fuente: Bobrowski, Marré y Yankelevich
Carlos López Vázquez 2004
Algunos problem(it)as...
8

Fabricante de fibras ópticas (U$S 500.000)

Corredor de bolsa (U$S 500.000.000)

Préstamos federales (U$S 2.000.000.000)
Algunos números...
E-commerce 1998: 17.000 millones U$S
 E-commerce 2002: 350.000 millones U$S(1)
Carlos López Vázquez 2004

9
E-commerce 1999: 1.700 millones U$S
 E-commerce 2000: 4.200 millones U$S
 E-commerce 2003: 13.100 millones U$S(2)

(1) Fuente: Forrester Research (2) International Data Corp.
Carlos López Vázquez 2004
¿Y los colegas... en que están?
10
Carlos López Vázquez 2004
Tasas de error típicas
11

Cambios en la nómina de pagos 1%

Facturación 2-7%

Registros de crédito ... ¡tanto como 30%!
Fuente: Pierce (1997)
Carlos López Vázquez 2004
Nuevas víctimas (para un viejo villano...)
12
Data Warehouse (DW)
 Electronic Data Interchange (EDI)
 Data Mining (DM)

¿Qué es un DW?
...una estrategia para integrar información
heterogénea
 ...un sistema que permite procesamiento
analítico en línea
 ...un sistema que apoya la toma de
decisiones correctas presentando
correctamente en el momento correcto a un
costo correcto la información correcta...
Carlos López Vázquez 2004

13
¿Qué opina la gente de DW?
Carlos López Vázquez 2004
Los desafíos en orden de prioridad son:
14
Calidad de datos
Manejo de datos antiguos
Manejo de las expectativas de los
usuarios finales
Modelado del negocio/datos
Manejo de las expectativas de los
directivos
Análisis de reglas del negocio
Manejo de metadatos
Fuente: DCI/Meta Group
Algunos hechos ...
Al crear un DW, entre 10 y 20% de los
datos o son corruptos o son incompletos
 Prevenir un error cuesta 1/10 de corregirlo
 El costo directo de la mala calidad está
entre 10 y 25% del presupuesto de ventas
 Al integrar datos, se eliminan hasta un 40%
de registros duplicados
 Se ha informado que entre el 60 y 70 % de
los proyectos de DW han fracasado
Carlos López Vázquez 2004

15
Pero... ¿porqué?
Hay muchas razones (políticas, económicas
y técnicas)
 Hay dos en común:
Carlos López Vázquez 2004

16
– no se comprenden los problemas
– se subestima el esfuerzo para resolverlos
¿Y en qué invierte esa gente?


Carlos López Vázquez 2004










17
59% Intranet/Internet data warehouse access tools
54% Query/report writers
45% Data warehouse design (logical/physical)
43% Data acquisition and mapping
43% Data warehouse administration tools/products
41% Multidimensional OLAP tools/clients
40% Relational OLAP
38% Data delivery (e.g., connectivity tools)
38% RDBMS
37% Data quality and reconciliation tools
36% Data mining tools
31% Managed query environments
Fuente: Market Perspectives Inc. for Meta Group
Ud...¿tiene una buena excusa?
Es sabido que unir DB para formar un DW
es complicado
 Sin una re-ingeniería de los datos... ¡es aún
más complicado!
 Ello implica investigar, reacondicionar y
consolidar datos antes de migrar
 Algunos no lo hacen; en ellos son típicas
cinco excusas diferentes
Carlos López Vázquez 2004

18
Fuente: Vality Technology Inc.
Primera de cinco excusas...
Carlos López Vázquez 2004

19
“...Los datos nuevos serán tan buenos como
los viejos, y los viejos aparentemente
funcionan bien...”
La paradoja es:
(Datos buenos)+(Datos buenos)=(Datos malos) !
Algunos ejemplos
Una tabla de clientes con campos no
estandarizados
Carlos López Vázquez 2004

¡Se requieren “fuzzy joins”!
20
Segunda de cinco excusas...
Carlos López Vázquez 2004

21
“...Siempre tenemos alguna clave para hacer
el join en la mayor parte de los casos...”
Tercera de cinco excusas...
Carlos López Vázquez 2004

“...De ser necesario limpiaremos los datos
luego de llevarlos al nuevo sistema, y
después del prototipo...”
Usualmente, es demasiado tarde porque:
•se acabaron los fondos
•se acabó el respaldo (o la paciencia)
•quizá ya se quemaron los puentes...
22
Cuarta de cinco excusas...
“...Arreglaremos los datos en el punto de
entrada con GUIs y mejores procesos de
edición...”
Esto tiene cuatro problemas:
Carlos López Vázquez 2004




23

Nunca subestime la creatividad del digitador
Las prácticas y políticas de la empresa
evolucionan más rápido que el software
Hay datos cuyo formato no puede controlar
Para el futuro todo OK, pero... ¿qué hace con los
datos viejos?
Quinta de cinco excusas...
Carlos López Vázquez 2004

24
“...Los usuarios nunca admitirían cambiar
sus datos...”
Quizá no se requiera:
•claves externas
•tablas de sinónimos
•etc.
En resumen:
Carlos López Vázquez 2004

25
No permita que estas excusas inhiban el
utilizar la información existente como una
ventaja estratégica
La salud de su empresa depende de la
salud de sus datos
Carlos López Vázquez 2004
Nuevas víctimas (para un viejo villano...)
26
 Data
Warehouse (DW)
 Electronic Data Interchange (EDI)
 Data Mining (DM)
DQ en relación a EDI
Teoría: “EDI ayuda a mejorar DQ”
 Práctica: “Aparecen impactos negativos”
¿Porqué?
 DQ fue originalmente presentado en
contabilidad
 El concepto ha variado en el tiempo
Carlos López Vázquez 2004

27
– Confiabilidad
– Relevancia (desde los ‘80)
Fuente: Vermeer (2000)
Carlos López Vázquez 2004
Visión tradicional
28

Confiabilidad (Reliability)
– Accuracy
– Completeness
– Timeliness

El usuario no aparece
Calidad <==>Grado de acuerdo con la realidad
Carlos López Vázquez 2004
Nuevas tendencias
29

Agrega otra dimensión
– Relevancia (Relevance)
– Confiabilidad (Reliability)

Relevancia no es intrínseca a los datos; depende
del uso y del usuario
Calidad <==>Grado de acuerdo con la realidad y
las necesidades del usuario
Incluso así...
El modelo es aún insuficiente
 No explica cómo ni porqué pueden
empeorar las cosas al implementar EDI
Carlos López Vázquez 2004

30
– Datos perfectos pueden ser insuficientes

Necesidad de un modelo alternativo
Nuevas tendencias
Aparece la interpretación del emisor y
receptor
 La comunicación exitosa requiere compartir
un contexto
Carlos López Vázquez 2004

31
Calidad <==> datos + alineación entre el contexto
del emisor y del receptor
¿Cómo interactúan?
Carlos López Vázquez 2004

En resumen:
– Confiabilidad es positiva
– Relevancia es positiva

Pero...
– Contexto es negativa porque genera dudas y
desconfianza en el sistema

Resultado neto:
– ¡puede ser positivo o negativo!
32
Ejemplos
Diferentes interpretaciones del mismo ítem
(“data is good but interpretation is wrong”)
 Diferentes traducciones del mismo ítem
entre diferentes proveedores
Carlos López Vázquez 2004

33
Carlos López Vázquez 2004
Nuevas víctimas (para un viejo villano...)
34
 Data
Warehouse (DW)
 Electronic Data Interchange (EDI)
 Data Mining (DM)
35
Carlos López Vázquez 2004
(b )
(c )
(a )
(d )
Ejemplos de errores
4
x 10
Carlos López Vázquez 2004
1.7
1.6
1.5
1.4
1.3
1.2
75
36
76
77
78
79
Reclamos por incendio en Bélgica
80
81
Ejemplos de errores
40
Carlos López Vázquez 2004
35
30
25
20
15
10
5
0
0
37
20
40
60
Caudal en un dos puntos de un mismo río
80
Carlos López Vázquez 2004
Redes neuronales
38
Carlos López Vázquez 2004

39
Muchos problemas con el software no se
deben al sistema, sino a inconsistencias o
errores en los datos
Al incorporar DQ en el sistema...
mejores decisiones de mercado
 incrementar ingresos y ganancias
 mejorar participación en el mercado
 detectar fraudes más rápidamente
 mejorar servicio al cliente
 viabilizar el uso de OLAP y DM
 comprender a sus clientes
 implementar cambios más rápidamente
Carlos López Vázquez 2004

40
Fuente: i.d.CENTRIC/firstLOGIC
¿Cómo justificar hacer DQ?
Muchos proyectos sufren de problemas
 Los problemas inesperados provocan:
Carlos López Vázquez 2004

41
–
–
–
–
gastos extras
atrasos
baja de calidad del producto o servicio
combinación de los anteriores
Los riesgos son problemas potenciales
 Identificarlos permite prevenir

¿Cómo justificar hacer DQ?
Enfóquelo en términos de riesgo para el
“otro” proyecto
 ¿Otro? Por ejemplo:
Carlos López Vázquez 2004

–
–
–
–

42
Business intelligence
Data Warehousing
Customer Relationship Management (CRM)
Enterprise Resource Planning (ERP)
Éxitos relacionados:
empresa <==> CEO <==> CIO <==> ¡Ud.!
¿Cómo justificar hacer DQ?
Ej.: Las etapas C1, F4 y F5 requieren
integrar datos del sistema actual en el nuevo
Preguntas:
 ¿Tolerancia a datos erróneos?
 ¿Tolerancia a datos incompletos?
 ¿Tolerancia a especificaciones (metadatos)
incompletas o erróneas?
Carlos López Vázquez 2004

43
Hay que mitigar el riesgo si afecta al proyecto
Sobre el riesgo...
Para eso se inventaron los seguros
 Hay seguros de vida, granizo, helada, etc.
 Desafortunadamente, no hay pólizas para
calidad de datos
Carlos López Vázquez 2004

44
Houston, we have a problem!
 Tres pasos:
– Identificar riesgos potenciales
– Elaborar un plan B para cada caso
– Monitorear el plan mismo
¿Qué puede hacerse?
Carlos López Vázquez 2004
(A) Detección + corrección
45
– No toca los sistemas existentes
– No requiere “demasiadas” discusiones
– Tarea a realizar “una” vez (¡ja!)
(B) Control del proceso
– Quizá altera los sistemas existentes
– Altera los nervios de muchos...
– Tarea permanente
Carlos López Vázquez 2004
La analogía del lago
46
La literatura...
Redman (1996)
 Artículos varios
Carlos López Vázquez 2004

47
Tópicos del curso
Introducción
 Estrategias para mejorar
 Política de DQ
 Cómo arrancar
 Manejo de cadenas de información
 Métodos de control estadístico
 Monitoreo, seguimiento y mejora del
proceso
Carlos López Vázquez 2004

48
Carlos López Vázquez 2004
Algunos números...
49
M e jo r c a s o
(U S A)
Peor caso
(U S A)
P ro m e d io
(U S A)
M e jo r c a s o
(In t)
Peor caso
(In t)
P ro m e d io
(In t)
A d m is ib le
E rro re s e n
n o m b re s
0 .1 9
1 4 .6 0
4 .1 3
0 .6 9
2 4 .2 1
8 .8 2
1 .5
R e g is tro s
d u p lic a d o s
1 .0 6
6 0 .4 9
1 6 .2 4
2 .5 5
5 5 .9 6
1 6 .0 1
2 .0
E rro re s e n
d ire c c io n e s
0 .1 2
1 5 .4 8
2 .2 6
0 .6 0
8 2 .0 0
1 4 .5 8
1 .0
T ip o d e
c lie n te
0 .8 2
7 .7 5
2 .1 3
0 .1 2
0 .1 2
0 .1 1
-
R e la c io n e s
ig n o ra d a s
0 .0 4
1 9 .0 0
2 .6 5
0 .3 3
3 .9 0
1 .4 2
-
Fuente: InformationWeek/Innovative Systems' 1999 Delphi Industry Study
Dos situaciones
Carlos López Vázquez 2004

50
Existe una lista/BD confiable contra qué
comparar
– Ej.: direcciones válidas
– Ej.: clientes válidos

No existe tal lista
– Ej.: compras pasadas
– Ej.: calificación del cliente
Carlos López Vázquez 2004
Conclusiones
51
Para asegurar la calidad de los
datos las organizaciones no deben
únicamente invertir en la tecnología
que permite acceder a la
información; ellos deben además
invertir en la gente con las
habilidades para manejarla.
Fuente: Stewart and Fenton (1999)
Carlos López Vázquez 2004
La Hipótesis que faltó:
Calidad de Datos
Carlos López
[email protected]
Universitario Autónomo del Sur
52
Descargar

Calidad de Datos