Distribuovaná Analýza ATLAS dat 12.9.2006 Distribuovaná Analýza ATLAS dat Jiří Chudoba 4.9.2008 Fyzikální ústav AV ČR, v.v.i. Jiri.Chudoba@cern.ch
Model pro ATLAS Distribuované zpracování dat na gridu 12.9.2006 Model pro ATLAS Distribuované zpracování dat na gridu Hierarchie výpočetních center Tier0 – CERN Tier1 – 10 center pro ATLAS Tier2 – asi 30 center Tier3 – menší „příležitostná“ centra Farma Goliáš na FZÚ – Tier2 centrum přiřazené do GridKa regionu (Tier1 v Karlsruhe) Gridový software projektů EGEE, OSG a NorduGrid Model detailně popsán v ATLAS Computing TDR, CERN/LHCC/2005-022 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Tier2 centrum ve FZU Podepsané WLCG MoU v roce 2008 12.9.2006 Tier2 centrum ve FZU Podepsané WLCG MoU v roce 2008 Do roku 2008 včetně větší podíl ALICE než ATLAS. Nyní se vybírá hardware pro splnění závazků na rok 2009. 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Velikosti dat v MB/případ 12.9.2006 Data v roce 2008 Velikosti dat v MB/případ 50,000 sec@200Hz 10 M případů/den 60 dní v 2008: 600M případů V T0: 960 TB RAW to tape 96 TB RAW to disk (10%) 600 TB ESD to tape 60 TB ESD to disk (10%) 120 TB AOD to disk and tape 120 TB DPD to disk and tape 6TB TAG to disk V rámci každého oblaku kompletní soubor AOD v Tier 2 centrech (plus kopie v T1) V typickém Tier2 – 25 % AOD + DPD Ve FZU: asi 5 - 10 % AOD + DPD TDR Nyní RAW 1.6 ESD .5 1. AOD .1 .2 TAG .001 .01 D1PD T0 a T1 nebudou (?) přístupná běžným uživatelům, jen pro organizované produkce 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Kam s daty – space tokens 12.9.2006 Kam s daty – space tokens token name storage type used for @T2 @T1 @T0 ATLASDATATAPE T1D0 RAW data, ESD, AOD from re-proc X ATLASDATADISK T0D1 ESD, AOD from data ATLASMCTAPE HITS from G4, AOD from ATLFAST ATLASMCDISK AOD from MC ATLASPRODDISK buffer for in-and export ATLASGROUPDISK DPD ATLASUSERDISK User Data X *) ATLASLOCALGROUPDISK Local User Data @T3 prevzato z Kors Bos: ATLAS T1/T2/T3 Jamboree, srpen 2008 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Data v typickém Tier2, rok 2008 12.9.2006 Data v typickém Tier2, rok 2008 Typické = 500 CPU a 100 TB pro ATLAS ATLASDATADISK (60 TB) AOD a DPD dle požadavků (nebo podílu), možno i vzorky RAW a ESD ATLASGROUPDISK (6 TB) pro analýzu organizovanou fyzikálními skupinami ATLASUSERDISK (5 TB) scratch space for users ATLASLOCALGROUPDISK (zdroje mimo MoU) permanentní prostor pro lokální uživatele Nyní ve FZU pro ATLAS ATLASUSERDISK – 800 GB ATLASPRODDISK – 500 GB ATLASDATADISK – 2500 GB ATLASMCDISK – 500 GB Zvětšení „space tokens“ o několik TB (dohromady) možné téměř ihned. Celkem pro ATLAS zhruba 20 TB. 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Datové formáty RAW = raw data ESD = Event Summary Data 12.9.2006 Datové formáty RAW = raw data ESD = Event Summary Data detaily z rekonstrukce případů, možno z nich dělat identifikaci částic, refitování drah, rekonstrukci jetů cílová velikost 500 kB, nyní přes 600 kB. calorimeter cells = 270 kB, tracking data 200 kB – pro top případy AOD = Analysis Object Data vytvářeny pouze z ESD, určené pro analýzu nyní 200 kB/případ, plus 60 kB MC truth 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
DPD = Derived Physics Data 12.9.2006 Zkušenost z „Rome produkce“ AOD příliš velké pro analýzu Skupiny používaly hlavně ntuply vytvořené pomocí EventView, HighPtView, TopView DPD = Derived Physics Data DPD – podmnožina obsahu ESD a AOD s možným přidáním analyzačních dat Analyzační data – veličiny vypočítané z ESD a AOD Několik verzí DPD: D1PD, D2PD, D3PD, performance DPD Redukce velikosti dat pomocí: skimming – vynechání celých případů thinning – vynechání některých objektů slimming – vynechání části objektů 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Dnešní možnosti pro analýzu 12.9.2006 Dnešní možnosti pro analýzu 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
12.9.2006 Zdroj: Johannes Elmsheuser, srpen 2008 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Co je k analýze zapotřebí? 12.9.2006 Co je k analýze zapotřebí? UI = User Interface (třeba lxplus) a členství v ATLAS VO Návody na spouštění analýzy na Twiki stránkách Organizují se výukové semináře Veškeré datové přenosy přes systém DQ2 Distribuce oficiálních dat pomocí „subscriptions“ na místa registrovaná v TiersOfATLAS (TOA) Uživatelské datasety nyní není možné takto distribuovat (politické rozhodnutí), ale je možné je kopírovat na vlastní disk Výstup analyzační úlohy na USERDISK, bude pravidelně promazáván Uživatel ho může dát na LOCALGROUPDISK – permanentní prostor skupiny si mohou ve svých Tier přidat diskový prostor Přístup k ESD zatím není vyřešen (povolit úlohy uživatelů v T1 ?) Spolehlivost gridových komponent není 100 %, problémy při velkých kolekcích úloh Zmínit současnou situaci v Praze 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch
Zdroje ATLAS Offline software výukový seminář: 12.9.2006 Zdroje ATLAS Offline software výukový seminář: http://indico.cern.ch/conferenceDisplay.py?confId=39198 Distributed Analysis Workshop 25.-27.8.2008 v CERN http://indico.cern.ch/conferenceDisplay.py?confId=38560 Ganga výuka https://twiki.cern.ch/twiki/bin/view/Atlas/GangaTutorial5 Pathena výuka http://cdsweb.cern.ch/record/1118219 Analysis Model Forum Report, ATL-GEN-INT 2008-01 4.9.2008 Jiri.Chudoba@cern.ch Jiri.Chudoba@cern.ch