Aplicaciones de Big Data en R
V Jornadas de Usuarios de R
Zaragoza, diciembre 2013
Índice presentación
• Introducción : Tecnología Big Data. ¿Dónde
encaja R en todo esto?
• Principios: herramientas básicas y cómo
trabajar en Big Data
• ¿Qué es Map-Reduce?
• Map-Reduce programando en R
• Map-Reduce usando paquetes de R
• Map-Reduce usando SQL desde R
© 2013 Synergic Partners – Proprietary and Confidential
Introducción : Tecnología Big Data.
¿Dónde encaja R en todo esto? (I)
¿Qué es?
• Big Data != muchos datos
• Hadoop
–
–
–
–
Pig, jaql
Hive
HBase
…
• MongoDB
• Cassandra
• …
© 2013 Synergic Partners – Proprietary and Confidential
Introducción : Tecnología Big Data.
¿Dónde encaja R en todo esto? (II)
• Usamos datos tabulados.
(En caso contrario, habría otras soluciones que no explicamos aquí.)
• R es:
– la solución analítica
– la consola de control de (casi) todo el sistema
© 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y
cómo trabajar en Big Data (I)
© 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y
cómo trabajar en Big Data (II)
© 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y
cómo trabajar en Big Data (III)
© 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (I)
© 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (II)
Tanto para clasificación como para regresión:
• Algunos algoritmos se pueden paralelizar de
manera centralizada. Por ejemplo: Regresión
lineal, regresión logística, k-means
• Algunos algoritmos se pueden paralelizar “as is” y
combinar todos los modelos en un único modelo.
Por ejemplo: Random Forests
• Todos los algoritmos se pueden paralelizar “as is”
y utilizar una metaheurística (por ejemplo, un
voto ponderado) para obtener una clasificación
conjunta.
© 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (III)
En R
• Podemos programar Map-Reduce
• Podemos usar un paquete que use MapReduce
• Podemos controlar desde R programas como
Hive que usan Map-Reduce
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (I)
Map-Reduce programando en R (I)
Map-Reduce programando en R (I)
Map-Reduce programando en R (I)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (II)
Map-Reduce programando en R (II)
Map-Reduce programando en R (II)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (III)
Map-Reduce usando paquetes de R (I)
Map-Reduce usando paquetes de R (I)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando SQL desde R (I)
Map-Reduce usando SQL desde R (II)
Map-Reduce usando SQL desde R (III)
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
www.synergicpartners.com
Descargar

Document