DATA MINING UTILIZANDO SQL
SERVER 2008 R2
GRUPO 4
Nicoletti, Mariela
Quiroga, Cinthia
Romero, Melisa
Sgrinzi, agustina
Sistemas de inteligencia de negocios y soporte de
decisiones
Tabla de Contenidos
Introducción
•
•
•
•
¿Que es el da ta mining?
Fases del proceso de da ta mining
Extensiones del da ta mining
¿Por qué usar da ta mining?
Herramientas
•
•
•
•
Introducción a SQL Ser ver 2008 R2
Microsoft SQL Ser ver Analysis Ser vices (SSAS)
Business Intelligence Development Studio
Arquitectura de modelo de minería de da tos
Caso de
estudio
•
•
•
•
Pr esentación del caso de estudio
Descripción del escenario
Algoritmos utilizados
Demostración de la her ramienta aplicada al
escenario
¿ Que es el data mining?

Es el conjunto de técnicas y tecnologías que permiten
explorar grandes bases de datos con el objetivo de
encontrar patrones o tendencias, transformando los
datos en conocimiento.
Modelos
inteligentes
Estadísticas
Data mining
Base de
datos
Fases del Proceso de Data mining
Fases del Proceso de Data mining I
1. Entendimiento del negocio
 entender claramente los objetivos del negocio y asegurarse
de conocer lo que el cliente realmente quiere lograr.


crear los objetivos de minería de datos para lograr el
objetivo de negocio
establecer un plan de minería para lograr los objetivos
empresariales y de minería de datos.
Fases del Proceso de Data mining II
Fases del Proceso de Data mining II
2. Entendimiento de los datos
 se inicia con la recolección de datos iniciales de
fuentes disponibles.

los datos obtenidos
cuidadosamente.
deben
ser
examinados
Fases del Proceso de Data mining III
Fases del Proceso de Data mining III
3. Preparación de los datos
 Una vez que los datos están disponibles, estos necesitan
ser seleccionados, depurados y estructurados.

La exploración de datos en mayor profundidad se debe
llevar a cabo para identificar patrones en base a reglas
de negocio.
Fases del Proceso de Data mining IV
Fases del Proceso de Data mining IV
4. Modelado
 Las técnicas de modelado son seleccionadas para ser
utilizadas por el conjunto de datos preparados.

uno o más modelos son creados con el conjunto de
datos preparados mediante herramientas de
modelado.
Fases del Proceso de Data mining V
Fases del Proceso de Data mining V
5. Evaluación
 El modelo resultante debe ser evaluado en el
contexto de los objetivos del negocio.

Adquirir conocimiento del negocio es un proceso
iterativo en la minería de datos.
Fases del Proceso de Data mining VI
Fases del Proceso de Data mining VI
6. Implementación
 El conocimiento que se obtiene a través del proceso
de data mining se tiene que presentar de manera
tal que los interesados puedan usarla cuando lo
requieran.

El reporte final del proyecto necesita sumarizar las
experiencias del proyecto para mejorarlo.
Extensiones de data mining
Web mining: consiste en aplicar las técnicas de
minería de datos a documentos y servicios Web.
Las herramientas de Web mining analizan y procesan
los logs para producir información significativa.


Text mining: se refiere a examinar una colección de
documentos y descubrir información no contenida en
ningún documento individual de la colección.
¿Por qué usar Data Mining?





Proporciona un punto de encuentro
investigadores y las personas de negocios.
entre
los
Ahorra grandes cantidades de dinero a una empresa y
abre nuevas oportunidades de negocios.
Contribuye a la toma de decisiones tácticas y
estratégicas.
Permite a los usuarios dar prioridad a decisiones y
acciones.
Proporciona poderes de decisión a los usuarios del
negocio.
Herramientas para Data Mining en
SQL Server 2008 R2
Herramientas para Data Mining en
SQL Server 2008 R2
Herramientas para Data Mining en
SQL Server 2008 R2
Herramientas para Data Mining en
SQL Server 2008 R2
Herramientas para Data Mining en
SQL Server 2008 R2
Herramientas para Data Mining en
SQL Server 2008 R2

Microsoft SQL Server Analysis Services (SSAS)
Proporciona a los usuarios una amplia gama de
herramientas que puede utilizar para diseñar, crear y
visualizar modelos de minería de datos:
 Diseñador
de Data Mining: Es el entorno primario en el
que se trabaja con modelos de minería de Microsoft
SQL Server Analysis Services.
 Lenguaje
DMX: es una extensión del lenguaje SQL que
permite crear y trabajar con modelos de minería de
datos en SSAS.
Herramientas para Data Mining en
SQL Server 2008 R2
 Algoritmos
de Data Mining
 Algoritmos
de Clasificación
 Algoritmos
de Regresión
 Algoritmos
de Segmentación
 Algoritmos
de Asociación
 Algoritmos
de Análisis de Secuencia
Business Intelligence Development Studio


Es la IDE de Microsoft utilizada para el
desarrollo de análisis de datos y soluciones de
Business Intelligence.
Utiliza el Microsoft SQL Server Analysis
Services, Reporting Services e Integration
Services.
Arquitectura del modelo de Data Mining
Un modelo de minería de datos recibe los datos de
una estructura de minería de datos y los analiza
utilizando un algoritmo de minería de datos.
 Los metadatos especifican el nombre del modelo y el
servidor donde están almacenados, así como una
definición del mismo.
Los resultados que están almacenados en el modelo
varían dependiendo del algoritmo, pero pueden incluir
patrones, conjuntos de elementos, reglas y fórmulas.
Los enlaces señalan a los datos almacenados en
memoria caché en la estructura de minería de datos.
Caso de Estudio: Cáncer de mama.



El índice de superación de esta enfermedad depende
de la fase en que se encuentra el tumor en el momento
de su detección.
No existe indicios para determinar la presencia de este
cáncer.
Otro inconveniente es determinar características
necesarias para predecir, a partir de un conjunto de
microcalcificaciones, si el paciente puede desarrollar la
enfermedad.
Escenario



Basado en un estudio de investigación desarrollado en
Wiscosin.
Pacientes vistos por el Dr. Woldberg desde 1984, se
incluyen solo los que presentan cáncer de mama
invasivo.
Cada núcleo de las células poseen 10 atributos que se
representan en las tablas.
Datos de las tablas: Diagnóstico
Atributo
Diagnostico
Descripción del diagnostico medico
Radio
Distancia desde el centro del núcleo de la célula hasta el
perímetro de la misma
Textura
En función de desviación estándar de los valores en escala
de grises.
Perímetro
Del núcleo de la célula cancerígena
Zona
Área donde se encuentra el tumor
Datos de las tablas: Pronóstico
Mismos datos que la tabla Diagnóstico, excepto el atributo diagnóstico.
Atributo
Descripción
Resultado
Cáncer recurrente o recidiva.
Tiempo
Tiempo aproximado que tarda la enfermedad en volver a
aparecer (recurrente)
Tamaño de tumor
Diámetro del tumor extirpado en cm.
Estado de los ganglios
linfáticos
Numero de ganglios linfáticos axilares positivos observados
en el momento de la cirugía.
Escenario: Problemas encontrados


El cáncer de mama es un tema muy interesante pero
fue necesario investigar sobre los términos médicos
utilizados.
Importación de datos de la tabla
Metodología
Para el desarrollo de este informe se utilizaron dos de
los algoritmos que ofrece SQL Server 2008:

Algoritmo de árboles de decisión.

Algoritmo de regresión logística.
Algoritmo de árboles de decisión I


Un árbol de decisión tiene unas entradas las cuales
pueden ser un objeto o una situación descrita por
medio de un conjunto de atributos y a partir de esto
devuelve una respuesta la cual es una decisión que
es tomada a partir de las entradas.
Los valores que pueden tomar las entradas y las
salidas pueden ser valores discretos (clasificación) o
continuo (regresión).
Algoritmo de árboles de decisión II
Nodo Hoja
Nodos internos
Algoritmo de Regresión Logística


Es usada extensamente en las ciencias médicas y
sociales.
Otros nombres para regresión logística usados
en varias áreas de aplicación incluyen modelo
logístico, modelo logit, y clasificador de
máxima entropía.
Algoritmo de Regresión Logística
Objetivos de la regresión logística


Investigar como influyen en la probabilidad de
ocurrencia de un suceso, la presencia de diversos
factores
Determinar el modelo más apropiado
Algoritmo de Regresión Logística
Algoritmo de regresión logística de Microsoft

Es una variación del algoritmo de red neuronal de Microsoft. La
regresión logística es una técnica estadística conocida que se usa
para modelar los resultados binarios, como los resultados sí-no.
Descargar

Slide 1