De aanvoer van koelwater voor rekenclusters bij het Australische Victorian Life Science Computation Initiative (VLSCI) is gesaboteerd door aanhoudende hitte. Gedurende vijf dagen heeft het land geleden onder extreem hoge temperaturen, meldt technieuwssite The Register. Bij die hittegolf is vier dagen achter elkaar het kwik boven de 40 graden Celsius gebleven.

Uitschakelen vóór uitval

Het water in Melbourne is hierdoor te warm geworden om nog dienst te kunnen doen als koelwater voor supercomputers. De chiller-systemen die het aangevoerde koelwater echt koud moeten krijgen, konden niet opboksen tegen de warme toestroom. Dit heeft als eerste de Blue Gene/Q-supercomputer Avoca geraakt, die normaal een piekvermogen van 838,9 teraflops haalt.

"De waterinvoertemperaturen hebben de veiligheidsmarges overschreden om Avoca operationeel te houden", meldden de systeembeheerders van het VLSCI op dinsdag 14 januari. Dus hebben zij toen alle rekentaken stopgezet op die IBM-opstelling met 65.536 processor-cores en 65 TB geheugen.

Tien minuten later zijn twee andere, wat minder krachtige clusters (Merri en Barcoo) gevolgd. Beide x86-systemen (ook IBM-supers) liepen het risico van plotse uitval, vanwege onvoldoende koeling. Lopende rekenklussen werden nog wel uitgevoerd, maar nieuwe taken konden niet meer worden ingediend. Een derde VLSCI-systeem (Bruce) had geen last van deze oververhitting omdat die SGI-machine in een ander datacenter staat.

Wachten op verkoeling

Een dag later waren Merri en Barcoo weer volledig operationeel, maar de Blue Gene-super moest nog wachten op koelere tijden. Uiteindelijk is Avoca op vrijdagnacht 17 januari na een geleidelijke heractivering weer geheel online gekomen. In de loop van het weekend is een permanente aanpassing van het koelingssysteem geïnstalleerd om toekomstige hittegolven wel het hoofd te kunnen bieden, meldden de systeembeheerders nog in de update van vrijdag.

Als eerste ging deze opstelling van IBM's Blue Gene onderuit door de hittegolf in Australië:

Via: VLSCI.