Sesionador Web dirigido al estudio de sitios
web culturales: Diseño e Implementación del
paquete RWeb Sessionizer
Ec. Esther Hochsztain
Ing. Andrómaca Tasistro
Cra. Carolina Asuaga
Facultad de Ciencias Económicas y Administración
Universidad de la República, Uruguay
Octavo Congreso Latinoamericano de Sociedades de Estadística .
Octubre de 2008
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Introducción
• Evaluar qué tan efectivo es su sitio web resulta
imprescindible para las organizaciones. Usualmente se
analiza solamente los datos referidos al número de
páginas consultadas y la cantidad de visitantes en el
sitio web, así como en qué partes del sitio web el
usuario clickea, cuándo elige incluir un producto en el
carro de compras, comprar un ítem, u otras acciones de
compra,
eventos de registro, vista de productos,
acciones de pago, etc.
• Sin embargo, lo anterior brinda una visión muy básica y
se necesitan aplicaciones más avanzadas para estudiar
características adicionales.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Introducción: Conceptos Básicos
• Un sesionador web (Web Sessioner) resulta de
fundamental importancia en Web Usage Mining,
que consiste en la aplicación de técnicas de
Data Mining para la identificación de patrones
de uso de un sitio web.
• Existen muy pocas implementaciones de
sesionadores web, debido a que es un área muy
reciente y a la complejidad de su propuesta.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Introducción: Conceptos Básicos
•
Una sesión de usuario está formada por un conjunto de objetos
consultados por un mismo usuario durante una misma visita a un sitio web.
•
Existen diversos métodos para la identificación de usuarios, en esta
propuesta se usa la pareja dirección IP y el agente desde donde se realiza
la solicitud.
•
Este procedimiento presenta como ventaja que siempre está disponible y
no se necesita tecnología adicional.
•
Una vez identificado el usuario deben distinguirse las diferentes sesiones
de usuario.
•
Esto se realiza agrupando las peticiones de sesiones utilizando heurísticas
orientadas al tiempo o a la navegación.
•
Es fundamental contar con un buen método de identificación de crawlers,
ya que pueden distorsionar todo el estudio que se haga del uso de un sitio
web.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Introducción: Metodología
Se
presenta
el
paquete
RWeb
Sessionizer donde se implementa en R la
metodología propuesta inicialmente por R.
Cooley, y que ha tenido varios
refinamientos posteriores.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
• Introducción
•
Antecedentes y Elección del caso de
estudio
• Generación de sesiones
• Identificación de crawlers
• Paquete RWebSessionizer
• Aplicación al caso
• Conclusiones
• Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Antecedentes: Áreas de Investigación
• 1) Cultura e Internet
• 2) Web Log Mining
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
1) Cultura e Internet
• Tecnología y Cultura, Antecedentes:
Imprenta de Gutenberg, radio, cine,
televisión
• Tecnología y Cultura, Internet: El sitio web
de una organización cultural proporciona
una herramienta fundamental para cumplir
con dos de sus objetivos básicos: difundir
y democratizar la cultura.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
1) Elección del caso de estudio: Teatro Solís
• Principal
referente
montevideana.
de
la
cultura
• Propicia una fuerte demanda social.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
1) Elección caso de estudio: Teatro
Solís
El sitio web del Teatro Solís:
• proporciona información sobre los horarios y tarifas
de las distintas actividades,
• permite que el público
instalaciones del teatro,
visite
• posibilita el
documental;
su
acceso
a
virtualmente
valiosa
las
colección
• presenta un programa para docentes en el marco de
los distintos programas escolares.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
2) Web Log Mining
• Conocer la forma en que los usuarios de una
organización utilizan la web es clave para
comprender si se está brindando el servicio que
se requiere, si los productos o servicios son
fácilmente encontrados y, en definitiva, hasta
qué punto se cumple con el objetivo que la
organización pretende lograr por medio de su
presencia en la web.
• Uno de los métodos habituales para conseguir
este conocimiento es el análisis de logfiles, un
sendero útil pero no exento de problemas.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
2) Web Log Mining
• La estructura de un logfile es extremadamente
simple. Cada vez que alguien descarga un
elemento de la web, como por ejemplo una
página o una imagen, el servidor escribe una
línea en el archivo histórico o logfile.
• Los enfoques de las investigaciones actuales
realizadas en Web Usage Mining son muy
variados, pero la mayoría se centran en las
sesiones.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Generación de sesiones
Las principales formas de identificar
sesiones se basan en los siguientes
aspectos:
•
•
•
•
•
IP + Agente
Identificadores de sesiones embebidos
Registro
Cookie
Agente de Software
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Identificación de crawlers
• Un crawler es un programa que realiza búsquedas en la web, por
tanto deben distinguirse los usuarios "humanos" de los usuarios
crawlers.
• Los crawlers trabajan de una forma metódica y automatizada,
creando así una base de datos donde va guardando los resultados
de sus búsquedas consecutivas, para posteriormente poder analizar
dicha información y realizar tareas como la indexación y búsquedas
más eficientes en la web (técnicas usadas por ejemplo por motores
de búsqueda como Google, Yahoo, etc.).
• El comportamiento de un crawler es cíclico, realiza búsquedas en
profundidad, accediendo internamente a los links que se le dan y
así sucesivamente dentro de los links que va encontrando a su
paso.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Paquete RWebSessionizer
El sessionizer implementado posee las
siguientes características:
•
•
•
•
timeout parametrizable,
elimina software robots (crawlers),
asigna un identificador a cada sesión,
genera datos de resumen del proceso de
sesionalización.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Paquete RWebSessionizer
DATOS
PREPROCESAMIENTO
IDENTIFICACIÓN DE CRAWLERS
INGRESO DE TIMEOUT
DETERMINACIÓN DE SESIONES
DETERMINACIÓN DE MEDIDAS DE RESUMEN
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Aplicación al caso de estudio:
Teatro Solís
•
•
•
•
Cantidad de días: 3
Cantidad de líneas : 115744
Timeout: 10 minutos
Cantidad
de
sesiones
(eliminados
crawlers): 5248
• El promedio de bytes por sesión es: 8722
• Duración promedio de la sesión: 4,4
minutos
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Aplicación al caso de estudio: Teatro Solís
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Conclusiones
• Contar con este paquete es un primer paso para
comprobar si el sitio web del Teatro Solís está
cumpliendo con los objetivos previstos.
• Con los resultados preliminares se pudo
apreciar que la página principal está cumpliendo
el objetivo de brindar los datos necesarios para
la mayoría de los usuarios.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Conclusiones
• El Teatro Solís es patrimonio de todos los
Uruguayos. Una correcta gestión de su sitio
web, en el que además de promover y difundir
los diversos espectáculos artísticos, se propicie
la cohesión social, así como la generación y
reafirmación de valores simbólicos compartidos,
es un tema no menor tanto en los objetivos del
Teatro como en el beneficio de la sociedad toda.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Plan de la presentación
•
•
•
•
•
•
•
•
Introducción
Antecedentes y elección del caso de estudio
Generación de sesiones
Identificación de crawlers
Paquete RWebSessionizer
Aplicación al caso
Conclusiones
Trabajos futuros
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Trabajos futuros
• Incorporar el
módulo de análisis de
sesiones, en base a datos de resumen y
una galería de gráficos.
• Establecer
interactivo.
un
método
de
consulta
• Establecer una interfaz de usuario gráfica,
que facilite el uso del paquete.
Sesionador Web dirigido al estudio de sitios web culturales. Diseño e Implementación
del paquete RWeb Sessionizer Hochsztain, Tasistro, Asuaga
Sesionador Web dirigido al estudio de sitios
web culturales: Diseño e Implementación del
paquete RWeb Sessionizer
Ec. Esther Hochsztain
Ing. Andrómaca Tasistro
Cra. Carolina Asuaga
Facultad de Ciencias Económicas y Administración
Universidad de la República, Uruguay
Octavo Congreso Latinoamericano de Sociedades de Estadística .
Octubre de 2008
Descargar

Sesionador Web dirigido al estudio de sitios web culturales. Diseño