Tier2 centrum v Praze Jiří Chudoba Fyzikální ústav AV ČR, v.v.i.
Výpočetní model 1996: ATLAS Computing Technical Proposal data: 1 PB/rok, 10 9 případů/rok, 1 MB/případ, 10 TB AOD/rok „consider some or all of the data at a small number of regional centres“ „data accessible at the event level and even below that at the physics object level“ – considering OO DB o ROOTu: „we may profit more from the ideas than from the code“ High-end CPU 1996: 10 SPECint95, 2005: 100 SPECint : PIII 1.13GHz: 2.58 HEPSPEC06/jádro (1 jádro) 2008: Intel E5440 (2.83GHz): 8.72 HEPSPEC06/jádro (4 jádra) Jednotky: HEP-SPEC/kSI2K = 4.00 SI2K ≅ 100 * SPECint95 / SPECint95 = 12.1 SI2K =.003 HEPSPEC06
Hierarchický výpočetní model 2005: ATLAS Computing Technical Design Report Tier0, 1, 2, 3 centra 10 Tier1 center Tier2: 1/3 AOD, všechny TAG, část DPD 5*10 8 případů v 2007, 2*10 9 případů od 2008 Tier2 funkce: MC simulace fyzikální analýza zpracování dat pro kalibraci a „alignement“, studie detektorů
WLCG projekt oficiální Tier2 centrum, MoU podepsáno v dubnu 2008 slíbené zdroje (verze duben 2009) 1U box Altix XE 310 se 2 servery (4 CPU celkem, 16 jader) má výkon 131 HEPSPEC06 pro ATLAS by na závazek roku 2009 stačilo 5 takových boxů
Organizace zástupce v WLCG: Miloš Lokajíček investice z projektů HEPFARM (spolupráce s CERN), D0 (ML) a ÚJF (Dagmar Adamová) provoz zajišťuje Výpočetní středisko (Jiří Chudoba) ve spolupráci s dalšími odděleními ATLAS kontakt pro provoz JCh ALICE kontakt pro provoz DA zástupce ATLAS v International Computing Board za ČR: Tomáš Davídek kontakty ve spolupracujících institucích v ČR – nejsou definovány podpora uživatelů obecně problémy farmy: ATLAS specifické: není
Hardware - CPU HP Blady: BL35p (36x), BL20p (6x), BL460c (9x4 jader), BL465c (12x), HP BL 460C (10x8jader) U1: DL140 (67x), DL145 (3x), DL360 (2x), LP1000r (34x) SGI Altix ICE 8200, infiniband 64 x 8 jader, E GHz, 512 GB RAM, SGI Altix XE 310 40x8 jader, E GHz, 640 GB RAM IBM iDataPlex dx340 84 x 8 jader, E GHz, 1344 GB RAM Celkem HEPSPEC06, jader 3.8 TB RAM, 52 TB lokálních disků 6 iDataPlex ICE 8200 Typ Počet procesorů Počet jaderVýkon MFlopsRAM (GB) Intel Pentium III Xeon Intel ® Xeon ® Processor 2.80 GHz Intel ® Xeon ® Processor E Intel ® Xeon ® Processor E Intel ® Xeon ® Processor L CELKEM Pro srovnání Amálka ÚFA AV ČR,
Příspěvky projektů poměry pro nastavení na sdílených uzlech bez Altix ICE 8200
Zvyšování efektivity CPU
Hardware - Storage Diskové pole HP EVA 6100, 80 TB Disková pole Overland Ultamus 4800, 144 TB Disková pole EasySTOR, 40 TB Diskové pole VTrak M610p (CESNET), 16 TB Pásková knihovna Neo 8000, LTO4, 100 TB (max 400 TB) Celkem 280 TB disků a 100 TB pásek
Síť
Další infrastruktura napájení: UPS, diesel agregát chlazení: vzduchové a vodní přístup
Monitorování vnitřní monitorování nagios, ganglia, munin, weathermap, RRD grafy pro teplotu, UPS, klima, teplota, úlohy vnější monitorování SAM – Site Availability Tests, pakiti, nagios ATLAS úlohy a přenosy: dashboard, panda, HammerCloud tests
Porovnání dostupnosti SE na Tier2 v GridKa oblasti s Tier1 dostupnostspolehlivost
Využití CPU času dle projektu LRMS – Local Resource Management System PBSPro: golias, SL4 Torque: torque, SL5
Instalovaný ATLAS sw Dotaz možno pomocí ldap: ldapsearch -x -H ldap://sbdii.farm.particle.cz:2170 -b mds-vo-name=praguelcg2,o=grid nebo na dalším webu:
Dostupný prostor pro data DPM = Disk Pool Manager jinde i dCache, CASTOR, StoRM společný protokol SRMv2 1 head node (golias100.farm.particle.cz) a 4 disk servery lokálně (goliasx98, se4, dpmpool1, dpmpool2) a 1 vzdálený (cl5.ujf.cas.cz) prostor organizován v poolech (heppool1, atlaspool5, augerpool1,...), pro ně je možné nastavovat přístupová práva: GROUPS atlas,atlasprd,atlas/Role=lcgadmin,atlassgm,atlas/Role=production nověji se prostor dělí podle space tokens
Aktuální stav Token Desc. Pool # Files Total Size (GB) ATLASDATADISK heppool ATLASHOTDISK heppool ATLASLOCALGROUPDISK heppool ATLASMCDISK heppool ATLASPRODDISK heppool ATLASSCRATCHDISK heppool AUGERPROD augerpool
Pro CZ uživatele Přístup přes grid stejně jako ostatní /atlas/cz skupina – mohli bychom nastavit vyšší priority pro úlohy (zatím není), máme vyhrazený prostor v DPM ATLASLOCALGROUPDISK lokální přístup: ui2, ui3 – stroje s afs, SL4, posílání do PBSPro ui5 pod SL5 se připravuje, úlohy pod Torque návod na lokální analýzu sepsala Jarka Schovancová:
Dostupná data automatická replikace části dat run z večer se srážkami při energii 2.38 TeV formulář pro žádosti o replikaci
Analýza Testů analýzy STEP09 testy probíhaly na přelomu května a června přenos dat z Tier1 OK špatné výsledky při testu analýzy, mnoho spadlých úloh, dlouhé časy důvody přetížený disk server, který hostil data malá kapacita síťového spojení Následné pravidelné testy pomocí HC pomohly lépe nastavit prostředí pro analýzu
Disk space under DPM 1 dpm head node golias100 ATLAS tokens defined on pool heppool1 3 disk servers: se3 (goliasx98), se4, dpmpool1 dpmpool2 added this week ATLASMCDISK 10 TB during tests (now 20 TB)
MOU April 2009 numbers 2009: 1504 HEP-SPEC06, 72 TB ATLAS: 624 HEP-SPEC06, 37 TB 78 cores (8 HEP-SPEC06/core) 2010: 2548 HEP-SPEC06, 201 TB
Test 525
Test 525 V době testu právě probíhal i přenos top DS z FZK. Vytížená dedikovaná 1Gbps linka. dpmpool1 se3 Dále v průběhu testu „spadl“ diskový server se3, po rebootu zůstaly nějakou dobu neodhaleny některé chybné procesy
dpmpool1 se3 se4 3x1Gbps Maximální vytížení přenosové kapacity
Test 531
HammerCloud testy 915 a 916, WMS + File Stager – 12h from to – Submitted jobs: – Input Datasets: mc08.*merge.AOD.e*_s*_r6*tid*
UAT User Analysis Test Rozsáhlý test podobný HC testům, ale se skutečnými uživateli Proběhl Příprava: distribuce DS, 10 TB do FZU uat jetStream_medcut.merge.AOD.a84/ (DS103) 7000 souborů, 9946 GB přeneseno za 29 hodin, průměr 800 Mbps, maxima 2 Gbps z FZK (6.4 TB), DESY 3.6 TB) a Gottingen (.9 TB)
Shrnutí Tier2 centrum ve FZÚ poskytuje potřebné služby pro ATLAS a ALICE experimenty Nepřetržitý provoz je zajišťován malým počtem pracovníků důležité spolehlivé monitorovací nástroje Kapacita přístupná všem členům ATLAS, českým uživatelům můžeme zvýšit priority Další zvýšení kapacity od počátku roku 2010