In een eerder verhaal sprak ik een keer over ninja’s in IT. Zij hebben een soort zesde zintuig om computerproblemen te verhelpen. Ze hebben een gave om problemen snel en accuraat op te lossen in complexe datacenter infrastructuren en brengen een karrenvracht aan ervaring en expertise met zich mee. Wat zij kunnen, kun je niet leren. Er zijn (helaas) geen certificaten voorhanden die aangeven dat iemand bovennatuurlijke krachten met computers heeft.

Desalniettemin, door de wol geverfde probleemoplossers volgen dezelfde ongeschreven, maar algemeen geldende regels. Deze zes volg ik zelf. Ik wil hierbij wel aantekenen dat ze voor de meeste – maar niet alle – situaties gelden.

1. Verander nooit de interface van een server of netwerkapparaat waar je op dat moment mee verbonden bent.

Het klinkt als een no-brainer, maar je zult nog verstelt staan van het aantal IT-pro’s die gaan morrelen aan de instellingen van de netwerkinterface waarmee ze met een apparaat verbonden zijn. Zo’n aanpak vraagt om problemen. Soms is er geen andere optie, maar vermijdt het zolang je kunt. Als je slim bent configureer je een tweede IP voor de interface en verbind je met een ander apparaat, subnet, seriële console of KVM, maakt niet uit. Dit geldt vooral voor apparaten die op afstand aangestuurd worden en waar normaal gesproken geen on-site IT-personeel is.

Soms, wanneer ik lui ben, schrijf ik een script om het IP van een Linux-machine te veranderen, voer ping-tests uit en maak de wijziging ongedaan als er iets niet klopt. Maar dat is eigenlijk een soort van vals spelen.

2. Zorg ervoor dat je altijd een manier hebt om terug te gaan

Probeer altijd een route te hebben zodat je naar het oorspronkelijke probleem kunt terugkeren. Dit betekent dat je voordat je met een harde schijf aan de slag gaat een image moet maken. Of, wanneer je met virtuele machines werkt, maak eenvoudig weg een snapshot. Het punt is dat er altijd bestanden op zo’n schijf kunnen staan die je later alsnog nodig blijkt te hebben.

3. Documenteer, documenteer, documenteer

Van alle regels die ik hier opschrijf, wordt deze wellicht het minst opgevolgd. Ik begrijp dat het middenin een chaotische situatie niet gemakkelijk is om altijd het probleem en de oplossing vast te leggen, maar maak er een vast ritueel van om dit achteraf te doen. Als het stof is opgetrokken, loont het de moeite om de stappen naar de oplossing alsnog te documenteren. Bewaar deze documenten veilig, het liefst ergens in de cloud op het net – en op meerdere plekken.

4. Magie bestaat niet, geluk wel

Founding father Thomas Jefferson zei ooit: “Ik merk dat hoe harder ik werk, hoe meer geluk ik lijk te hebben.” Dit geldt ook voor IT. Hoe meer tijd je aan je infrastructuur besteedt, hoe meer vertrouwd je met diezelfde infrastructuur zult raken. Je zult merken dat je problemen eerder herkent en sneller tot een oplossing komt. Er zijn nog veel manieren om geluk binnen IT af te dwingen. Maak bijvoorbeeld gebruik van tools die automatisch backups maken van netwerkconfiguraties. Zo wordt het herstellen van een switch een kwestie van minuten in plaats van uren.

5. Maak een back-up van elk configuratiebestand voordat je eraan sleutelt

Deze regel geldt voornamelijk voor Unix servers en netwerkapparaten die configuratiebestanden hebben die vrijwel alle aspecten van het apparaat beslaan. Voordat je los gaat met deze gevoelige instellingen, maak een kopie op een usb-stick en misschien één op een TFTP-host. Op Unix systemen kun je simpelweg via cp iets.conf naar iets.conf.orig hernoemen.

In Windows is het verstandig om een gedeelte van het register te exporteren voordat je aanpassingen daarin gaat doen. Het lot van een server ligt zonder back-up volledig in jouw handen.

6. Monitor, monitor, monitor

Een probleem oplossen is goed, een probleem voorkomen nog veel beter. Verstandig is om vrijwel elk denkbaar aspect binnen een datacenter te monitoren. Dit begint met de temperatuur van de ruimte, de racks en de servers – vergeet ook niet de serverprocessen, en de uptime. Een centraal logsysteem voor alle netwerkapparaten is geen slecht idee, net zoals het gebruik van tools die grafieken uit kunnen draaien over het gebruik van bandbreedte, diskpartities en andere data-zaken. Stel een alarm in zodat je op tijd gewaarschuwd wordt zodra er iets mis gaat.

Als een database corrupt raakt omdat een partitie te vol raakt, scheelt een sms’je of e-mail een uur van tevoren je meerdere uren aan werk en downtime. Er is geen reden om monitoring binnen een datacenter naar het tweede plan te schuiven.

De regels die ik hier noem moet je niet gewoon gaan opvolgen, je moet ze ademen. Voor veel IT’ers zijn ze vanzelfsprekend, voor anderen blijft het iets ongrijpbaars – net als ninja’s.

Bron: Techworld