Zo moest Rick in het verleden redelijk vaak overwerken voor onderhoud aan de fysieke servers. Ter voorbereiding van de verhuizing, is er een extra server aangeschaft voor virtualisatie en daardoor zou dat een stuk minder vaak moeten gebeuren. Door de combinatie van de nieuwe server met de oude server en door de opslag te verplaatsen naar de SAN, is de redundantie een stuk verbeterd. Daardoor durft Rick het aan om meer fysieke servers te virtualiseren vóór de verhuizing.

“Voorheen moesten de servers meestal uitgeschakeld worden voor onderhoud", zegt Rick. "Dat betekent downtime, dus dat wil je niet overdag in productie hebben. Gemiddeld werkte ik dus één dag in de week ’s avonds flink over."

Maar nu kan een willekeurige virtuele server worden gekloond. "Als ik dus iets wil patchen, patch ik de clone. Ondertussen draait de server gewoon door en ik zet ik de clone pas live als ik tevreden ben. Mocht ik een blue screen krijgen ergens in de tussentijd, dan houden we alles gezellig bij het oude en is er niets aan de hand”, juicht Rick, terwijl hij een klein overwinningsdansje doet. “Toch fijn om van het structureel overwerken af te zijn, al gebeurt het nog steeds natuurlijk wel eens door andere oorzaken. Bovendien zijn niet al onze servers nu opeens gevirtualiseerd.”

Verhalen uit den ouden doosch

Toch is Rick zeker de beroerdste niet als het om overwerken gaat. “Als systeembeheerder van een bedrijf als IDG hoort het er nu eenmaal soms bij, omdat je moet zorgen dat alles naar behoren functioneert, zodat iedereen kan werken. Als ik er niet uitkom, is er binnen het bedrijf niemand die het voor me oplost. Dat houdt dus in dat ik soms even flink door moet trekken en dan leg ik m’n slaapzakje alvast klaar, hoewel ik stiekem ook wel weet dat er van slapen in zo’n nacht niets gaat komen”, zegt Rick.

Geen slaap tot backup

De overwerkverhalen van Rick gaan dan ook wel ver. Zo was er vorig jaar een tapestreamer stuk. “Die dingen gebeuren altijd op vrijdag en net voor het einde van de dag”, zegt Rick. “Zo ook in dit geval... daar ging mijn weekend! Backups worden op vrijdag en in het weekend gemaakt en die wil je wel hebben. Op vrijdag ging de tapeunit stuk, dus het laten zitten tot maandag was geen optie. Dan krijg je namelijk te maken met de wet van Murphy, want dan zul je zien dat het gebouw affikt en dan heb je geen backups. Dus ik had Dell gebeld, daar hebben we een contract mee waarbij ze 4 uur responsetijd hebben. We hebben van alles geprobeerd om het ding aan de praat te krijgen en uiteindelijk hebben we hem vervangen. Ik was toen zaterdagmorgen rond 7 uur thuis."

Geen slaap…überhaupt

Maar dat is nog niks, blijkt. “Ik ben een keer op maandag om 8 uur ’s ochtends begonnen en de volgende dag om 3 uur was ik klaar… ’s middags dan hè.”

Daar was al wat aan vooraf gegaan. De week ervoor was er namelijk een schijf stuk gegaan op een Novell server. “De tegenhanger van Active Directory is Directory Services van Novell. Die doet verificatie, daar maak je je objecten in aan, je printers enzovoorts. Het is eigenlijk de belangrijkste service binnen Novell om jou te valideren dat jij degene bent die jij bent en dat je in bepaalde mappen mag. Daar was dus een schijf van stuk gegaan. Dat maakt op zich niet uit, want er zitten 6 schijven in en het is een RAID 5 opstelling, dus het blijft allemaal gewoon doordraaien. Alleen er mag niet nog een schijf uitvallen.

Het was dus noodzaak voor Rick om die schijf te vervangen. Dus er kwam volgens contract iemand van Getronics langs om een nieuwe schijf te brengen. “Maar die schijf deed helemaal niets. De volgende dag kwam hij met een andere schijf, maar helaas wilde de RAID 5 ook daarmee niet rebuilden. Vervolgens hebben we de hele backplane vervangen, de RAID controller en nog een aantal andere zaken. Nog steeds werkte het niet! Dan voel je je als systeembeheerder toch niet helemaal lekker, want als er een schijf mist werkt het allemaal een stuk trager, omdat de data die je opvraagt van het RAID systeem eerst berekend moet worden. Daarnaast kun je het niet hebben dat er ondertussen nog een schijf uitvalt, want dan heb je helemaal niets meer.”

Geen backup

Omdat ze er niet uitkwamen, zou er iemand van Unisys langskomen. “Die zijn wat meer ervaren”, vertelt Rick.”Voor als al het andere mislukt zeg maar. Die moest wel na 5 uur ’s middags komen, want anders konden de werknemers hier niet meer doorwerken. Maar we hadden geen backup van de productie van die dag. Als we dat namelijk hadden willen doen, had het eerst nog twee uur gekost voordat we zouden kunnen beginnen en bovendien was het in principe ook niet nodig volgens de supportmedewerker”, vertelt Rick.

Het zag er aanvankelijk goed uit. “Hij was koud een uurtje bezig en kwam triomfantelijk naar me toe met de mededeling dat de RAID configuratie weer werkte. En inderdaad, het leek allemaal te kloppen. Maar toen hij de server weer opstartte, was alles weg wat erop stond. Dus toen waren we een dagproductie kwijt. Gelukkig hadden we nog wel de backup van het weekend. Zo zie je maar hoe belangrijk die backups zijn. Die hebben we meteen teruggezet, maar dan moet er ook nog geverifieerd worden dat de data er goed op staat. En dat duurt lang! We waren er de hele nacht mee bezig. Voor die tijd was het dan ook heel veel data. Inmiddels lach je om 60 GB, maar goed.”

Maar dat was niet de enige vertraging volgens Rick. “In Novell kun je jammer genoeg niet alles één op één terugzetten, waardoor we van alles opnieuw moesten aanmaken, zoals printer-objecten en rechten. De gebruikers hadden we gelukkig nog wel. We waren om een uur of 11 ’s morgens zover dat iedereen weer kon inloggen en het werk weer op kon pakken. Daarna waren er nog wat kleine dingetjes die opgelost moesten worden, dus uiteindelijk ben ik toen om een uur of 3 naar huis gegaan.”

Redundant

Dat zoiets nog eens zal gebeuren is erg onwaarschijnlijk. “We draaien nu namelijk op een SAN”, vertelt Rick. “Dat SAN wordt goed gemonitord door Dell. We hebben overigens een EMC, dat is een heel betrouwbaar ding. Daar draaien bijvoorbeeld ook grote banken op. De kans dat er wat stuk gaat aan dat EMC is erg klein en daarnaast is alles nu redundant uitgevoerd."

Rick is duidelijk daar duidelijk erg blij mee. "In elke schijf zitten bijvoorbeeld twee controllers. Van elk onderdeeltje, tot de processor aan toe, zijn er twee. Verder mogen er twee schijven volledig wegvallen. Alsnog hebben we dan alle data in onze RAID 5 opstelling. Dat kunnen we rebuilden met de rest van de data. En dan hebben we ook nog eens een 4-uurscontract met Dell, zodat een eventuele kapotte schijf razendsnel vervangen is. Laat ik het zo zeggen; tenzij er iemand binnenkomt met een hamer en de volledige server in elkaar prakt, zitten we redelijk veilig.”

De watersnoodramp

In het oude pand in Haarlem heeft zich niet alleen persoonlijk drama ontvouwen, maar ook collectieve malaise. "Op een dag was er in Haarlem een dusdanig extreme regenval, dat het reservoir dat het hemelwater moest opvangen het niet meer hield en de kelder overstroomde. Aan het einde van het reservoir zat een pijp en die is onder de druk bezweken."

Rick was diep ongelukkig. "Drie maal raden wat er in de kelder staat… de serverruimte! We hebben toen van alles geprobeerd om de stroom water die naar binnen kwam te stoppen. Uiteindelijk hebben we zelfs een complete rol tapijt in de buis gestouwd, maar ook dat mocht niet baten. Toen het water eindelijk ophield met stromen, stond het tot boven het stopcontact.

Rick is blij dat er op dat moment mensen aanwezig waren in het pand. "Het gebeurde gelukkig op vrijdagmiddag. Daardoor konden we alles op tijd uitzetten, want anders hadden we echt kortsluiting gehad en dan heb je echt een probleem. Ik ben ook erg blij dat het geen rioolpijp was, want anders had ik er echt niet gestaan!"

Meer over de verhuizing van IDG en de invloed daarvan op de IT lezen? Verhuizen en ICT: een verhaal over voeten en aarde IT-Operatie Verhuizing: Eerst meer virtualiseren IT-Operatie Verhuizing: Het is strak, doorzichtig en sexy? Een serverhok IT-Operatie Verhuizing: Slechts één server het raam uit!

Bron: Techworld