Met de Large Hadron Collider (LHC) in het Zwitserse Genève proberen wetenschappers te achterhalen hoe het heelal is ontstaan. Dat doen ze door deeltjes met een snelheid van 99,999 procent van het licht tegen elkaar aan te laten botsen. Bij die botsingen wordt al het mogelijke (snelheid, richting, lading massa) gemeten.

Datacollectors

Die metingen worden gedaan in een van de vier punten in de enorme deeltjesversneller waar botsingen plaatsvinden: ATLAS, LHCb, CMS en ALICE. Op ieder punt vinden andere experimenten plaats en op elk van die punten in de 27 kilometer lange LHC-ring staat een datacollector met miljoenen sensors. Als er botsingen plaatsvinden in de versneller wordt 1 petabyte (1 miljoen gigabyte) aan data per seconde gegenereerd.

Klik voor groot

Het verwerken van al die data is ondoenlijk en onnodig, legt Jean-Michel Jouanigot, CERN IT Communications Systems Group Leader, uit tijdens een rondleiding in het CERN Computing Center. Wel wordt alle data eerst naar het centrale punt in het Computing Center gestuurd, dat gebeurt via het eigen glasvezelnetwerk van CERN dat dat alle datacollectors aansluit op het centrale datacenter. CERN is in het gebied zelfs eigenaar van de wegen en het land zodat ze altijd kunnen graven, mocht dat nodig zijn. Bijvoorbeeld bij een netwerkuitbreiding zou dat erg handig kunnen zijn.

300.000 megabyte per seconde

De verbindingen verschillen in snelheid. Zo stuurt de datacollector van ATLAS gegevens met ongeveer 320 MB/s door, CMS doet dat met 220 MB/s, ALICE met 100 MB/s en LHCb houdt het bij 50 MB/s. Als er ionen tegen elkaar botsen, kunnen die snelheden oplopen tot 1,25 GB per seconde. Die data wordt in het Computing Center eerst "gezeefd", een groot gedeelte van de data is niet nodig voor het onderzoek dat wordt gedaan.

Klik voor groot

Per seconde kan er 300.000 megabyte data door dat geavanceerde filter, of zoals Jouanigot het noemt: een "event filter computer farm", gaan. Uiteindelijk blijft er aan de achterkant nog een datastroom van 300 MB/s over. Dat betekent dat CERN niet alle petabytes op hoeft te slaan. Per jaar wordt er in totaal wel 15 petabyte (15 miljoen gigabyte) opgeslagen, als dezelfde hoeveelheid data op CD's gebrand zou worden zou dat resulteren in een CD-toren van ongeveer 20 kilometer hoog, meer dan twee keer zo hoog als de Mount Everest.

Klik voor groot

Data op tape

In het centrale punt wordt de data zowel naar tape als naar disk geschreven. "Tapes hebben de prioriteit", legt Jouanigot uit. Taperobots gebruiken namelijk alleen stroom als iemand data opvraagt, diskopslag heeft altijd stroom nodig, ook als de data niet wordt gebruikt.

In de kelder van het Computing Center staan taperobots van IBM en Oracle (StorageTek). De twee grote spelers in de markt voor taperobots. Jouanigot wil graag dat beide vertegenwoordigd zijn in het datacenter, en het kan ook de prijs wat drukken. "We spelen ze natuurlijk tegen elkaar uit om het goedkoper te houden", verklapt hij. Per dag wordt er ongeveer 70 terrabyte aan data weggeschreven wat neerkomt op ongeveer 70 nieuwe tapes per dag.

The Grid

Hoewel CERN beschikt over een tamelijk groot datacenter (meer dan 800 servers, bijna 54.000 disks en 160 tape drives - zie grafiek) kan er maar ongeveer 20 procent van de data daar ter plekke worden opgeslagen. De rest wordt verspreid over de wereld opgeslagen in datacenters die deel uitmaken van het Worldwide LHC Computing Grid (WLCG), door Jouanigot eenvoudigweg "the Grid" genoemd.

Klik voor groot

The Grid bestaat uit drie verschillende lagen. Het Computing Center van CERN is de zogenaamde "Tier-0". Alle CERN Data gaat door deze centrale hub die verbonden is met andere "tiers" (banden) via speciaal daar voor gemaakte optiche "wide area links" die data met 10 gigabits per seconde verstouwen.

CERN-data in Nederland

De data gaat vanaf Tier-0 naar Tier-1, die ring aan datacenters bestaat uit elf plekken die zich bevinden in Nederland (SARA en NIKHEF, onderdeel van AMS-IX), Frankrijk, Italië, Duitsland, Spanje, Scandinavië Groot-Brittannië, Canada, de VS en Taipei. Deze plekken voorzien in distrubutienetwerken en verwerken ruwe data. Daarnaast wordt daar ook data geanalyseerd en doen ze dienst als opslagplek.

Tier-1 maakt alle data beschikbaar voor Tier-2, een derde ring die wordt gebruikt door de wetenschappers om specifieke analyses uit te voeren. Het gaat om ongeveer 160 centra waar de data wordt ontsloten voor wetenschappers overal ter wereld die bijvoorbeeld toegang krijgen tot de data via hun eigen pc. Iets waar ook nadelen aan kunnen zitten. "De kans is groot dat, mocht er een Higgs Boson deeltje gevonden worden, dat dat niet bij CERN is", zegt Jouanigot met een knipoog. "Dat is Nobelprijstechnisch niet zo handig." Naar eigen zeggen wordt hem daarom wel vaker gevraagd om de data op het CERN-terrein te houden. "Maar daar kunnen we niet aan beginnen."

Klik voor groot (data is iets verouderd vandaar die 130 in plaats van 160)

Middleware

De gebruiker kan vanuit zijn eigen pc bij alle data komen die er wordt gegenereerd door de LHC. Het hele uitgebreide netwerk kan worden gezien als één enkel syteem. Dat komt door een uitgebreide middlewarelaag die de grid verbindt en op een uniforme manier ontsluit. In Europa en Azië wordt gebruik gemaakt van gLite middleware die werd ontwikkeld door het Enabling Grids for E-sciencE (EGEE) project en open source beschikbaar is onder de Apache 2.0 licentie.

Klik voor groot

In Scandinavië gaat het om ARC middleware, dat eveneens beschikbaar is onder een Apache licentie. En in de VS wordt the Grid ontsloten via de Virtual Data Toolkit (VDT) die beschikbaar wordt gesteld door Open Science Grid (OSG). Al deze middleware-systemen zijn beïnvloed door de Globus Toolkit, een open source tookit voor het bouwen van computing grids.

De data wordt door de Grid File Transfer Service tussen de verschillende centra uitgewisseld. Die dienst is ook ontwikkeld door EGEE en is bedoeld om grote aantallen data veilig en betrouwbaar uit te wisselen via een gedistribueerde computing grid.

Op dit moment verwerkt het Worldwide LHC Computing Grid tussen de 500.000 en 1 miljoen taken per dag. CERN verwacht dat dit naar mate de tijd vordert alleen maar zal toenemen, wat volgens het instituut zal zorgen voor nieuwe technologie die beschikbaar komt voor de rest van de wereld.