Iedere beheerder stelt zich ten doel servers levend en wakker te houden, of ze tenminste op orde te hebben wanneer ze in actie moeten komen. Slechts weinig beheerders kunnen eerlijk zeggen dat zij er alles aan doen om de maximale server-uptime uit hun systemen te halen. Volgens deskundigen besteden veel beheerders onnodig veel tijd en budget aan technologieën en werkmethoden die weinig of geen invloed hebben op de uptime.

Het bereiken van een goede server-uptime is zowel een wetenschap als een managementvaardigheid, meent Walter Beddoe van Six Telekurs USA. “Het is een combinatie van veel verschillende zaken, zoals geschikt personeel, foutbestendige hardware, dynamische veiligheidsmethoden en goede onderhoud- en beheersmethoden. Je moet vooral vastbesloten zijn om je best te doen,” aldus Beddoe.

Volgens Alan Howard, IT-baas van Princeton Radiology, zouden managers geen geld en tijd moeten verspillen aan activiteiten en tools die niet rechtstreeks bijdragen aan verbetering van de uptime. Zo is server clustering “tamelijk zonde van je tijd”, zegt hij. Niet-geautomatiseerde clustering, waarbij de synchronisatie handmatig gebeurt, kan meer problemen opleveren dan dat het wat opbrengt, waarschuwt Howard. “Eén foutje van een primary node kan catastrofale gevolgen hebben.”

Zo had Howards bedrijf een Windows Server cluster die bij een failover een toepassing liet vastlopen, omdat de wijziging van het configuratiebestand niet was doorgevoerd voor de stand-by server. “Het kostte veel meer moeite de oorzaak van die crash te herstellen dan de oorzaak van de fout in het knooppunt op te lossen,” merkte Howard.

Zijn afdeling voorziet niet langer in geclusterde servers op traditionele wijze. In plaats daarvan heeft hij een cluster van stand-alone servers (verbonden met een dual-controller Compellent Storage Center SAN), “waaraan we indien nodig zonder problemen virtuele machines kunnen toevoegen”.

Plannen

De meeste beheerders weten dat zorgvuldig plannen noodzakelijk is als je een betrouwbaar systeem wilt hebben. Van de aanschaf van een server tot het beheer en de vervanging ervan: alles moet worden gepland.

Volgens Raoul Gabiam van de George Washington University is levensduurmanagement een belangrijk onderdeel van de planning voor server-uptime. “Je moet weten wanneer en hoe je hardware vervangt en software upgradet, aangezien dat de prestaties, betrouwbaarheid en uptime beïnvloedt.”

Als je bijvoorbeeld software moet upgraden, is het van groot belang dat je van te voren uitzoekt of je huidige hardware de upgrade wel aankan. Het kan nodig zijn de software-upgrade te combineren met een hardeware-upgrade om aan de vereisten te voldoen en verdere uitval te voorkomen, of je kunt eerst het een en dan het ander doen als je niet teveel verandering tegelijk wilt, adviseert Gabiam.

Door standaardisatie en coördinatie verzeker je je van betrouwbare serverprestaties, meent Gabiam. “Voordat iemand iets installeert of wijzigingen doorvoert, moet er een ander beheerproces komen.” Dat betekent dat je moet weten “hoe alles staat ingesteld en opgesteld en dat je de veranderingen moet evalueren voordat ze zijn doorgevoerd,” legt Gabiam uit. “Op die manier weet je altijd hoe alles samenhangt en hoe het hoort te werken.”

Volgens Gabiam maakt verandermanagement het mogelijk te voorspellen hoe servers reageren als ze op een andere manier worden geconfigureerd of als ze in een andere omgeving worden gebruikt.

Paul Franko, CTO van Online Resources, is van mening dat je houding ook belangrijk is. Hij zorgt er bewust voor dat routineuze maar ingrijpende servertaken altijd serieus worden genomen en goed worden aangepakt. “We hebben een systeem opgezet met checks and balances, zodat we zeker weten dat onze beleidsregels worden opgevolgd,” zegt Franko. Regelmatig controleren managers het werk van medewerkers en er zijn ook dubbele controles om menselijke fouten te voorkomen. “Vergissen is menselijk en als je niet verschillende controlepunten hebt, dan kan het mislopen,” legt hij uit.

Zorg voor preventief onderhoud

Geregeld preventief onderhoud verrichten is waarschijnlijk de eenvoudigste en minst pijnlijke manier om een betrouwbare server te beheren. “Je uptime is zo hoog als het zwakste onderdeel in de aanvoerketen,” zegt Beddoe. Door een reeks essentiële zaken regelmatig uit te voeren - zoals systeemsoftware updaten en zorgen voor stabiele energievoorziening en koeling - kom je veel dichterbij een datacenter met “tevreden” servers, zonder dat je je budget hoeft te overschrijden of medewerkers van andere taken moet afhalen om in te springen.

Om er zeker van te zijn dat alle taken worden verricht wanneer dat nodig is, moet voor alle onderhoudstaken voor de server een overzicht worden opgesteld, betoogt Franko. “Sommige taken moeten onmiddellijk gebeuren, zoals veiligheidsupdates, maar andere taken kun je verzamelen en op regelmatige basis uitvoeren.” Onder die tweede categorie vallen bijvoorbeeld software-updates van niet-kritieke onderdelen.

Franko voegt hieraan toe dat onderhoudswerk zo moet worden verricht, dat er geen server-uptime door verloren gaat. “We leggen het systeem niet plat als we bepaalde onderhoudsactiviteiten doen. Daar streven we tenminste naar.” Als een server moet worden afgesloten vanwege onderhoud, dan plannen Franko en zijn teamleden dat voor de avonddienst of in het weekend, als er weinig vraag is van eindgebruikers. De enige reden om een kritieke server tijdens kantoortijden uit te zetten, is het installeren van een kritieke software-update, zoals een zero-day veiligheidspatch.

Automatiseer belangrijke servertaken

Het is geen geheim dat serverbeheer de afgelopen jaren steeds ingewikkelder is geworden, vooral door de opkomst van virtualisatie en soortgelijke technologieën en methoden waarmee je de prestaties van je servers kunt verbeteren.

Virtualisatie kan datacenters beschermen tegen de gevolgen van downtime. Door servers te consolideren en te verbinden met een gedeelde omgeving kun je dankzij virtualisatie verschillende virtuele machines draaien op verschillende hosts. Als er één host wegvalt, worden de taken verdeeld over de overgebleven hosts. “De uitval van een server heeft dan dus geen gevolgen voor de dienstverlening,” constateert Gabiam.

Om de in toenemende mate gevirtualiseerde omgeving te beheren, zijn er tools beschikbaar van leveranciers als Xenos Software, Uptime Software, Nimsoft en Nagios Enterprises. Deze software is ontwikkeld om datacentermedewerkers inzicht te geven in de prestaties van de server, problemen te signaleren en gebruik te maken van mogelijke prestatieverbeteringen.

Beddoe noemt zulke tools essentieel. “Je moet enige zekerheid hebben dat je servers altijd doen waarvoor ze bedoeld zijn”, zegt hij.

Laat je waarschuwen door je tools

Beddoe gebruikt zelf uptime managementsoftware van Uptime Software. Volgens hem moet een tool een signaal afgeven als de staat van de server een bepaalde drempel overschrijdt, bijvoorbeeld bij overbelasting van het geheugen. De meeste tools hebben ingebouwde alarmeringsfuncties. Volgens Beddoe heb je het meeste aan tools waarbij je kunt kiezen hoe je gewaarschuwd wilt worden, dus bijvoorbeeld via sms of e-mail. “Je moet over de juiste informatie beschikken zodat je stappen kunt ondernemen om problemen op te lossen. Zoek dus naar een oplossing die werkt voor jouw organisatie, ook als je team dergelijke waarschuwingen het liefst op een groot scherm ziet verschijnen.”

Jerry Gregg van Carfax wijst erop dat de uptime-gegevens van veel tools slechts benaderingen zijn. “Het zijn hooguit ruwe richtlijnen,” zegt Gregg. Sommige eenvoudige uptime-tools kunnen zelfs misleidend zijn, omdat ze geen onderscheid maken tussen een urenlange serveruitval op een slaperige zondagmorgen en een uitval van 10 minuten op een drukke donderdagmiddag. Daarom kun je beter investeren in tools met meer analytische mogelijkheden, adviseert Gregg.

Om een betere analyse van uptime te krijgen, laat Gregg meten wat de invloed van serverfouten is op belangrijke zakelijke diensten. Daarvoor gebruikt hij ProactiveNet Performance Management software van BMC Software, waarmee je rechtstreeks server downtime kunt vergelijken met verkooptransacties en andere aan zakelijke diensten gerelateerde data. “Zo kun je de gevolgen van een uitval niet alleen kwantificeren in tijd maar ook in geld,” aldus Gregg.

Op basis van de informatie van zijn applicatie kan hij vaststellen of er een patroon achter de uitvallen is te vinden dat belangrijke bedrijfsonderdelen bedreigt. Hiermee kan hij nieuwe uitgaven voor servers, betere netwerkapparatuur en andere technologieën en diensten beter verantwoorden. “Zonder die informatie maak je kosten-batenanalyses zonder de werkelijke kosten te kennen,” weet Gregg.

Houd je uptime uit handen van hackers

Veiligheid speelt ook een belangrijke rol bij server-uptime. Vanzelfsprekend zullen servers die blootstaan aan malware of onbeveiligde netwerkonderdelen eerder uitvallen dan hun beschermde soortgenoten. “Begin daarbij met de fysieke veiligheid van het gebouw waarin je datacenter zit,” raadt Beddoe aan.

Vervolgens is het van belang dat de regels voor servertoegang bekend zijn en worden nageleefd. Ook antivirusprogramma’s, firewalls en gedisciplineerde beheerders spelen een rol bij de beveiliging van servers en het nastreven van uptime, zegt Beddoe.

Volgens John Luludis van IT-consultant Superior Technology Solutions moet je voor de verbetering van je server-uptime verder kijken dan alleen de bekende veiligheidstaken, bijvoorbeeld door regelmatig terugkerende onafhankelijke veiligheidsaudits te laten doen. “Ik laat ons netwerk geregeld doorlichten door derden, omdat ik het belangrijk vind iemand van buiten ernaar te laten kijken,” aldus Luludis.

Bescherm je data

Alan Howard van Princeton Radiology gelooft heilig in regelmatig serveronderhoud, maar noemt het onmogelijk alle uitval te voorkomen, ondanks de inspanningen van beheerders en andere medewerkers. Om je te beschermen tegen dataverlies vanwege serveruitval raadt hij aan een databeschermingsplan op te zetten, als onderdeel van de gehele zakelijke continuïteitsstrategie. Princeton gebruikt een off-site opslagsysteem van Compellent Technologies om een kopie bij te houden van alle opgeslagen data.

Gabiam vertrouwt op de load-balancing-technologie die is ingebouwd in zijn netwerkinfrastructuur ter bescherming bij onverwachte serveruitval. “Als een server het begeeft of een applicatie vastloopt, dan wordt het dataverkeer omgeleid naar andere, vergelijkbare servers die de taken kunnen afhandelen,” zegt Gabiam.

In tegenstelling tot Howard is Gabiam een groot voorstander van clustering, waarvoor hij Novell Cluster Services gebruikt. “Als een van de cluster nodes uitvalt, of vanwege onderhoud uit de lucht moet, dan verhuist de geclusterde applicatie geruisloos naar een ander knooppunt van het cluster,” legt Gabiam uit.

Dit migratieproces kan handmatig of automatisch worden aangepast. “In het algemeen wil je dat de toepassing automatisch naar het volgende knooppunt gaat als de software of hardware hapert,” zegt Gabiam. Voor beheerders kan het echter handig zijn handmatig over te schakelen als zij onderhoud moeten plegen aan een bepaald knooppunt.

Controleer de kwaliteit van de hardware

Het aanschaffen van goede servers in plaats van schappelijk geprijsde blades is een logische manier om de betrouwbaarheid van je server te verbeteren. “Er zit een aanzienlijk verschil in de levensduur van je hardware als je overstapt van middelmatige naar hoogwaardige servers,” meent Jeffrey Driscoll van IT-dienstverlener E-N Computers.

In de huidige praktijk moeten beheerders met weinig budget de pijnlijke keuze maken tussen goedkope servers of betere systemen. Wat te doen? Driscoll adviseert slim te winkelen, naar koopjes te zoeken en samen te werken met het management om voldoende budget te krijgen voor geschikte servers. Laat het management maar zien welke financiële schade de organisatie kan lijden met onbetrouwbare servers. “Dat is vaak eenvoudig aan te tonen met cijfers en voorspellingen,” weet Driscoll.

Weet wanneer je een andere koers moet varen

Je gezonde verstand gebruiken is de beste manier om maximale server-uptime te krijgen zonder je budget te overschrijden. “Hardware is hardware. Op een gegeven moment gaat het stuk,” vertelt Gabiam. “Leer dus van eerdere ervaringen en maak een plan voor als het nogmaals gebeurt.”

Je verstand gebruiken betekent ook dat je moet weten wanneer je een andere koers moet varen, of je product nu aan vervanging toe is of niet. “Als je IT-personeel een kwart van zijn tijd besteedt aan brandjes blussen en achterhaalde systemen ondersteunen, dan ziet iedereen dat dat tijdverspilling is,” meent Beddoe.

Het realiseren van maximale server-uptime is een hels karwei, maar voor de meeste beheerders is het de moeite meer dan waard. “Geen enkele moeite is verspild als het je uptime verhoogt,” zegt Luludis.

Volgens Beddoe is het streven naar maximale uptime bijna een garantie voor een betrouwbaarder datacenter. Hij meent dat een ‘actieve omgeving’, waarbij medewerkers worden gestimuleerd problemen aan te pakken voordat ze schade kunnen veroorzaken, het belangrijkst is om de server-uptime te verbeteren. “In 17 jaar hebben we nog nooit een grote uitval gehad, die schadelijk was voor onze klanten,” besluit Beddoe trots. Bron: Techworld