Análisis Distribuido: IFIC ATLAS
Tier-2
Farida Fassi
Secunda reunión de ATLAS Tier-2 Español
5-6 de Octubre, 2006; UAM Madrid
Contenido
 Modelo de Análisis Distribuido de ATLAS (ADA)
 Estrategia de ATLAS para ADA
 Subsistemas de ADA en un Grid heterogenia
 Aspectos comunes de ADA: DDM/DQ2
 Feedback breve sobre Ganga
 ADA en el ejercicio SC4: contribución del IFIC
Modelo de Análisis Distribuido de ATLAS
 El objetivo fundamental de ADA es permitir a los usuarios de
ATLAS realizar el análisis distribuido de datos según el modelo
de computación de ATLAS:

Datos para el análisis estarán disponibles y distribuidos en todos los
centros Tiers1 y Tiers2 (ROD, ESD, AOD y TAG)

Tiers2 son facilidades para recibir los trabajos de análisis

Los usuarios envían los trabajos a los datos y extraen los relevantes
datos (Ntuple, AAN, etc)

El modelo prevé que 50% de los recursos Grid de ATLAS estarán
destinados al análisis
Estrategia de ATLAS para ADA (1)
La infraestructura Grid de ATLAS se basa sobre tres sabores Grid
 La estrategia de ATLAS consiste en tener un sistema de ADA
robusto y flexible, que hace uso de todos los recursos de ATLAS
 Sumisión directa a la Grid
 LCG/EGEE  LCG RB, gLite WMS y CondorG
 OSG  PANDA
 Nordugrid ARC Middleware
 Sumisión indirecta a la Grid
 ProdSys acceso fluido a todos los recursos Grid de ATLAS
Estrategia de ATLAS para ADA (2)
Front-end
client
ProdSys
Back-end
submission
ATLAS GRID
resources
LCG RB
CondorG
LCG
gLite RB
OSG
Panda
ARC
Nordugrid
Aspectos comunes de ADA: DDM/DQ2
 El sistema de gestion de datos distribuidos (DDM) es un aspecto
central para el Análisis Distribuido
 El objetivo de DDM es proporcional a los usuarios de ATLAS
un acceso uniforme a datos en todos los sabores Grid

En LCG, LFC representa Local Replica Catalog

FTS se usa para transferir datos/datasets entere los sitios
 Para poder llevar a cabo el análisis en los Tiers2, se requiere
que los input datasets estén disponibles allí
 ADA esta promoviendo la distribución de datos entre los Tiers1 y Tiers2
 completar la “collection” de datos con el fin de lograr una distribución
igualada entere los sitios
 condición necesaria para poder programar ADA dentro el ejercicio SC4
Feedback sobre Ganga: introducción
Ganga:
 “user interface” para la definición y la gestion de trabajos
 permite fácilmente intercambiar entre los múltiples “back-ends”
 tiene tres formas de interaccionar con el “user”: CLI, GUI, Script
 fácil de instalar y configurar
Job
Job
Job
Job
LSF
store & retrieve job
definition
localhost
localhost
submit, kill
prepare,configure
Athena
Gaudi
scripts
Ganga4
get output
update status
gLite
LCG2
DIRAC
DIAL
AtlasPRO
AtlasPROD
D
Feedback sobre Ganga (1)
 Progreso significante en la actual versión de Ganga (4.2.0-beta10)

Integración total con DDM/DQ2

Posibilidad de configurar los trabajos, especificando tanto el tipo del
Input como del Output vía “inputdata” y “outputdata” “plugins”


Posibilidad de escoger el CE de colas cortas/Job Priority

Colas cortas: CERN, LYON, NIKHEF, FZK, RAL y IFIC

Job Priorities: NIKHEF, CERN, IFIC (PPS)
Posibilidad de combinar entre la ubicación del datasets y el CEs durante
la sumisión del trabajo mediante la opción “inputdata.match_ce=True”
Feedback sobre Ganga (2)

Experiencia
 Varios trabajos de análisis han sido envidos al CERN y al Lyon
 Mayor colección de AODs en LCG
 CE de colas cortas dedicada a los jobs de análisis

La duración del proceso de la ejecución/procesamiento de datos
era del orden de algunos minutos, dependiendo tanto del tipo

de análisis como del tamaño del “datasets”
Algunos trabajos enviado al IFIC tardaron mas tiempo

Input datasets no estaba disponible
ADA en el ejercicio SC4: contribución del IFIC
 Disk Area

Disk-only area de capacidad de 4 TB está disponible en el
Tier-2 del IFIC, junto con los dedicados storage endpoints
 Job Priorities



IFIC esta contribuyendo in la implementación del
“Job priorities” y “short queues”:
Short queue/CE para “jobs” de análisis
VOMS attribute para separar la produccion
de análisis (PPS) (Javier)
Descargar

Distributed analysis