Seminář CESNET 1 Zpracování dat v částicové fyzice Jiří Chudoba FZÚ AV ČR
Seminář CESNET Obsah Projekt LHC Projekt LHC Zpracování dat v minulosti Zpracování dat v minulosti Objemy dat, motivace pro GRID Objemy dat, motivace pro GRID Zapojení pracovišť v ČR Zapojení pracovišť v ČR Rozsáhlé testy Rozsáhlé testy
Seminář CESNET LHC Large Hadron Collider Large Hadron Collider CERN, Ženeva CERN, Ženeva Tunel po předchozím urychlovači LEP Tunel po předchozím urychlovači LEP Proton-proton TeV, √s=14 TeV Proton-proton TeV, √s=14 TeV olovo-olovo √s=1150 TeV Předpokládané spuštění: 2007 Předpokládané spuštění: 2007 Obvod 27 km, 100 m pod zemí Obvod 27 km, 100 m pod zemí
Seminář CESNET Experimenty ATLAS, CMS – „velké“ univerzální ATLAS, CMS – „velké“ univerzální ALICE – těžké ionty ALICE – těžké ionty LHCb – b fyzika LHCb – b fyzika Obrovské v rozměrech i v počtech vyčítaných kanálů
Seminář CESNET ATLAS detektor
Seminář CESNET ALICE detektor
Seminář CESNET Zpracování dat v minulosti „Fotografický“ záznam drah po srážce částic drah po srážce částic jaderné emulze bublinové komory „Ruční“ zpracování Studium málo častých jevů si vyžádalo přechod k elektronickému záznamu signálů. Zvyšování počtu a četnosti vyčítání kanálů.
Seminář CESNET Zpracování dat z LEP Large Electron Positron Collider Large Electron Positron Collider 1989 – – experimenty (v každém asi 1000 lidí) 4 experimenty (v každém asi 1000 lidí) Zpracování: „Vše v CERN“ Zpracování: „Vše v CERN“ úložiště dat úložiště dat společné hromadné zpracování společné hromadné zpracování individuální analýza individuální analýza Postupně Postupně simulace i v jiných centrech simulace i v jiných centrech analýza redukovaných dat na pracovních stanicích (Data Summary Tape: FullDST, LongDST, MiniDST, MikroDST) analýza redukovaných dat na pracovních stanicích (Data Summary Tape: FullDST, LongDST, MiniDST, MikroDST) Nutnost sdílení informací motivací pro WWW Nutnost sdílení informací motivací pro WWW
Seminář CESNET léta - LEP Střediskové počítače IBM, VAX, alfanumerické terminály, přechod na RISCové stanice s UNIX, nakonec farmy PC s Linuxem, data většinou na páskách Střediskové počítače IBM, VAX, alfanumerické terminály, přechod na RISCové stanice s UNIX, nakonec farmy PC s Linuxem, data většinou na páskách Windows 95 Windows NT WGS and PLUS CERNVM VXCERN Počet interaktivních uživatelů za týden,
Seminář CESNET Srážky v LEP Poslední vícejetový případ v DELPHI Poslední mnohasprškový případ z experimentu DELPHI, 2000
Seminář CESNET Higgsův boson v detektoru Atlas
Seminář CESNET Au + Au; 5 TeV/u; b=5 fm UrQMD movies, 1 simulovaný a rekonstruovaný případ: 2 GB, 20h CPU
Seminář CESNET Centrální srážka Pb-Pb v ALICE det. (část)
Seminář CESNET Požadavky na systém Každý uživatel (fyzik) musí mít přístup ke všem datům daného experimentu Každý uživatel (fyzik) musí mít přístup ke všem datům daného experimentu Rychlá odezva pro interaktivní práci nad částí dat Rychlá odezva pro interaktivní práci nad částí dat Dávkové úlohy pro zpracování velkých kolekcí dat Dávkové úlohy pro zpracování velkých kolekcí dat Systém sám ví, kde jsou data a kde je nejvýhodnější úlohy zpracovávat Systém sám ví, kde jsou data a kde je nejvýhodnější úlohy zpracovávat
Seminář CESNET Simulace, Rekonstrukce, Analýza Simulace: Simulace: Malý vstup, velký výstup Malý vstup, velký výstup Velké nároky na CPU Velké nároky na CPU Oficiální software pro všechny úlohy Oficiální software pro všechny úlohy Rekonstrukce: Rekonstrukce: Mnoho dat na vstupu, méně na výstupu Mnoho dat na vstupu, méně na výstupu Oficiální software Oficiální software Analýza: Analýza: Na vybrané zlomky dat Na vybrané zlomky dat Každý uživatel může mít jiný software Každý uživatel může mít jiný software Výsledky “brzy” Výsledky “brzy”
Seminář CESNET Plány pro LHC Data na geograficky vzdálených místech Data na geograficky vzdálených místech Distribuované zpracování dat Distribuované zpracování dat Vysokorychlostní sítě pro přenos dat Vysokorychlostní sítě pro přenos dat Transparentní přístup ke všem datům musí zajistit grid middleware Transparentní přístup ke všem datům musí zajistit grid middleware Farmy levných PC s OS Linux Farmy levných PC s OS Linux Software v C++, python, perl Software v C++, python, perl
Seminář CESNET Tier-0 – CERN Nabírání a prvotní zpracování dat Nabírání a prvotní zpracování dat Distribuce dat do Tier-1 Distribuce dat do Tier-1 Tier-2 – ~100 center ve více než 30 zemích Simulace a Individuální analýza – dávkové i interaktivní úlohy Hierarchická síť výpočetních center Canada – Triumf (Vancouver) France – IN2P3 (Lyon) Germany – Forschunszentrum Karlsruhe Italy – CNAF (Bologna) Netherlands – NIKHEF/SARA (Amsterdam) Nordic countries – distributed Tier-1 Spain – PIC (Barcelona) Taiwan – Academia SInica (Taipei) UK – CLRC (Oxford) US – FermiLab (Illinois) – Brookhaven (NY) Tier-1 centra Zpracovaní dat (reprocesing) Zpracovaní dat (reprocesing) Úložiště dat Úložiště dat Analýzy pro velké celky dat Analýzy pro velké celky dat Národní či regionální podpora pro Tier-2 Národní či regionální podpora pro Tier-2
Seminář CESNET Tier-2 centra Zhruba polovina Tier-2 je aktivní Tier-3 základní prostředky pro koncové uživatele na univerzitách a jiných vědeckých pracovištích
Seminář CESNET Objemy dat - ATLAS Naměřená data Naměřená data Jedna kopie v Tier0 a jedna v alespoň jednom Tier1 na páskáchJedna kopie v Tier0 a jedna v alespoň jednom Tier1 na páskách ročně asi 3 PB = 3*10 6 GB (1.6 MB/případ, 2*10 9 případů)ročně asi 3 PB = 3*10 6 GB (1.6 MB/případ, 2*10 9 případů) ESD (Event Summary Data) – rekonstruované případy s podrobnou informací z detektoru ESD (Event Summary Data) – rekonstruované případy s podrobnou informací z detektoru 0.5 MB/případ, 1 PB/rok0.5 MB/případ, 1 PB/rok 2 kopie v některých Tier1 dostupné na disku2 kopie v některých Tier1 dostupné na disku AOD (Analysis Object Data) – rekonstruované fyzikální objekty (částice, spršky), pro analýzu „koncovým uživatelem“ AOD (Analysis Object Data) – rekonstruované fyzikální objekty (částice, spršky), pro analýzu „koncovým uživatelem“ 0.1 MB/případ, 180 TB/rok0.1 MB/případ, 180 TB/rok 1 kopie v každém Tier1, 1 kopie sdílená v přiřazených Tier2 centrech1 kopie v každém Tier1, 1 kopie sdílená v přiřazených Tier2 centrech Simulace: Simulace: Stejná struktura jako pro reálná data, asi 20% objemu reálných datStejná struktura jako pro reálná data, asi 20% objemu reálných dat 1 srážka při vysoké luminositě (obsahuje průměrně 23 případů) 7.5 MB, 8000 SI2000 s CPU1 srážka při vysoké luminositě (obsahuje průměrně 23 případů) 7.5 MB, 8000 SI2000 s CPU Poznámka o jednotkách SPECInt2000: PIV Xeon 3.2 GHz = 1200 SI2000
Seminář CESNET Přenosy dat Odhadované nároky na přenosy dat mezi Tier0 a Tier1 centry, pouze pro experiment ATLAS
Seminář CESNET Datové toky Tier1 – Tier2 2 – 3 krát ročně kopie AOD z Tier1 do Tier2 simulovaná data z Tier2 do Tier1, průběžný tok tok generovaný úlohami uživatelů
Seminář CESNET Probíhající příprava Zapojení pracovišť v ČR Zapojení pracovišť v ČR Zkušenosti ze současných experimentů Zkušenosti ze současných experimentů Rozsáhlé testy: Rozsáhlé testy: Data ChallengesData Challenges Service ChallengesService Challenges
Seminář CESNET Zapojené prostředky v ČR FZÚ: Farma GOLIÁŠ FZÚ: Farma GOLIÁŠ Téměř 100 dvouprocesorových strojů, Xeon 3.06 GHz a PIII 1.13GHz, 1-4 GB RAMTéměř 100 dvouprocesorových strojů, Xeon 3.06 GHz a PIII 1.13GHz, 1-4 GB RAM 40 TB disková kapacita40 TB disková kapacita 1Gb/s síť v kritických bodech, 100 Mb/s zbytek1Gb/s síť v kritických bodech, 100 Mb/s zbytek Připravuje se rozšířeníPřipravuje se rozšíření CESNET: Farma Skurut (část) CESNET: Farma Skurut (část) 33x 2CPU, PIII700 MHz33x 2CPU, PIII700 MHz Linux, PBSPro (Torque + Maui na skurut), LCG(gLite) - EGEE middleware, Linux, PBSPro (Torque + Maui na skurut), LCG(gLite) - EGEE middleware, SAM (D0 „grid“), AliEn SAM (D0 „grid“), AliEn
Seminář CESNET Experimentální optické propojení FZÚUKÚJFČVUT CERNFERMILAB CESNET AMSTERODAM CHICAGO CzechLight StarLight NetherLight
Seminář CESNET Urychlovač Tevatron FERMILAB (USA) Proton – antiproton TeV Experimenty D0 a CDF Objev top kvarku v roce 1995
Seminář CESNET D0 simulace rokpřípadyúlohyobjem dat [GB] Podíl farmy ve FZÚ: Všechna generovaná data se přenáší do FERMILAB přímou linkou 1 Gb/s poskytnutou CESNET
Seminář CESNET D0 reprocesing 2005 Zpracování případů verzí p17, stav k Opakovaná rekonstrukce (reprocesing) 11 farem 250 TB dat CPU roků pomocí SAMGRID
Seminář CESNET ATLAS Data Challenges DC1 v roce 2002: DC1 v roce 2002: Předem určené rozdělení úloh na farmyPředem určené rozdělení úloh na farmy Na každé farmě lokální ATLAS expert instaloval sw a spouštěl úlohyNa každé farmě lokální ATLAS expert instaloval sw a spouštěl úlohy Velké rozdíly v době zpracování přidělené sady úlohVelké rozdíly v době zpracování přidělené sady úloh DC2 + Rome production: DC2 + Rome production: Použity 3 různé GridyPoužity 3 různé Gridy LCG (LHC Computing Grid) 17 zemí, 51 farem LCG (LHC Computing Grid) 17 zemí, 51 farem GRID3 (US) – 19 farem GRID3 (US) – 19 farem NorduGrid – 7 zemí, 14 farem NorduGrid – 7 zemí, 14 farem CELKEM: 22 zemí, 84 farem
Seminář CESNET ATLAS – Produkční systém 2004, 2005 LCGNGGrid3LSF LCG exe LCG exe NG exe G3 exe LSF exe super prodDB dms RLS jabber soap jabber Don Quijote Windmill Lexor AMI Capone Dulcinea
Seminář CESNET Testy v takovém velkém rozsahu odhalily mnoho problémů, které se při menších zatíženích neprojeví Přesto se podařilo generovat a zpracovat plánovaných 8,5 miliónů případů v úlohách CZ = GOLIÁŠ + SKURUT
Seminář CESNET Service Challenge Testuje distribuci dat z CERN na disky a pásky Tier-1 center Testuje distribuci dat z CERN na disky a pásky Tier-1 center Nejen propustnost sítí, ale i funkčnost a spolehlivost serverů a celých center včetně doby reakce na poruchu Nejen propustnost sítí, ale i funkčnost a spolehlivost serverů a celých center včetně doby reakce na poruchu
Seminář CESNET Urychlovač LHC bude spuštěn za necelé Urychlovač LHC bude spuštěn za necelé 2 roky 2 roky Současné testy odhalují mnoho problémů, ale také ukazují, že přijatý model distribuovaného zpracování dat je realizovatelný Současné testy odhalují mnoho problémů, ale také ukazují, že přijatý model distribuovaného zpracování dat je realizovatelný Už jsme si přivykli na spolehlivé vysokorychlostní přenosy dat, obdobnou infrastrukturu očekáváme od gridových projektů Už jsme si přivykli na spolehlivé vysokorychlostní přenosy dat, obdobnou infrastrukturu očekáváme od gridových projektů
Seminář CESNET KONEC
Seminář CESNET Capacity Growth from now to 2008