Bij big data wordt vaak gedacht aan de enorme hoeveelheden gegevens die het internet genereert, maar het kan nog veel groter. Een project van astronomisch onderzoeksinstituut Astron moet nieuwe inzichten opleveren over het ontstaan van het heelal. Het systeem gaat daarvoor een recordhoeveelheid gegevens verwerken die gelijk staat aan het totale internetverkeer over 48 uur.

DOME, zoals het project heet, moet inzicht geven in het ontstaan van het universum. Wetenschappers accepteren dat de oerknal aan de basis staat van de vorming van alle protonen en elektronen, en daarmee van de sterren en planeten. Maar het is nog altijd niet bekend wat er is gebeurd in de allereerste honderdmiljardste seconde na de knal, en ook over het tijdvak tussen 400.000 tot 800 miljoen jaar na de knal zijn nog grote onduidelijkheden. Daarnaast moet het onderzoek inzicht geven in andere vragen als: Wat is 'donkere energie'? Is er buitenaards leven?

Het onderzoek vereist meer data dan een big data-systeem ooit heeft moeten verwerken. De 3 V's van big data (volume, oftewel de hoeveelheid, velocity, oftewel de snelheid waarop het binnenkomt, en de variety, oftewel de verschillende soorten datasets) zijn voor dit project extreem. De gegevens moeten bovendien aan zeer hoge kwaliteitseisen voldoen, waardoor verstoringen zoals ruis in het signaal moeten worden weggefilterd. Het project duwt big data daarom op meerdere niveaus 'beyond the final frontier'.

Voor het genereren van die data bouwen acht instituten uit zes verschillende landen sinds de jaren 90 aan de grootste radiotelescoop ooit. Deze Square Kilometre Array (SKA) omvat enkele duizenden radiotelescopen verspreid over Afrika en Australië, waarvan de schotels een gezamenlijke oppervlakte van één vierkante kilometer vertegenwoordigen (vandaar de naam). In 2024 moet het SKA klaar zijn voor gebruik.

Maar het opvangen van gegevens uit het heelal is slechts één deel van het probleem. De data moeten worden opgeslagen en geanalyseerd. Daarbij gaat het om exabytes aan gegevens, een orde van grootte die voor de SKA-gegevens neerkomt op twee keer de hoeveelheid van het dagelijkse internetverkeer. Ter illustratie: een exabyte is gelijk aan 1000 petabytes. Het verwerken van zoveel data vereist dan ook 'Exascale'-computers die op dit moment nog niet bestaan. Om als Exascale aangemerkt te worden, moet een systeem ongeveer 30 keer meer rekenkracht hebben dan Tianhe-2, de krachtigste supercomputer van dit moment.

De onderzoekers staan nog voor enkele grote uitdagingen. Zo wilden zij de data aanvankelijk verwerken in een centraal, gespecialiseerd rekencentrum. Maar alleen al het verplaatsen van de gegevens zou extreem veel energie kosten. "Wij proberen dus zo min mogelijk data te verplaatsen," vertelt wetenschappelijk directeur van Astron, Ton Engbersen. Daarom kozen de wetenschappers ervoor om speciale 'microservers' te bouwen met een hoge dichtheid van componenten die dicht bij de antennes staan.

Het DOME-project moet uiteindelijk verder gaan dan alleen astronomie. De gezondheidszorg, het energiebeheer en watermanagement kunnen allemaal profiteren van de enorme rekenkracht van big data-analyse op Exascale. De nieuwe computers bieden de mogelijkheid om extreem grote simulaties te draaien, en zouden daarom bijvoorbeeld kunnen helpen bij kankeronderzoek of in de zoektocht naar nieuwe materialen die kunnen worden toegepast op halfgeleiders. Zo hebben Astron en IBM deze zomer al een samenwerking gesloten met de Rijksuniversiteit Groningen voor verder gezamenlijk onderzoek op die gebieden. Zo moet het onderzoek naar de oerknal op termijn ook leiden tot wetenschappelijke doorbraken die wat dichter bij huis staan.

Dit artikel is tot stand gekomen in samenwerking met IBM

Kijk hier voor meer informatie over big data