De nieuwe Nehalem Xeon-processors van Intel hebben al veel los gemaakt. Talloze een- en tweesocketservers worden met de chips uitgerust, en in februari riep het internationale hoofd woordvoering tegen journalisten dat Nehalem "Intels grootste prestatiesprong is sinds de Pentium Pro." Die bewering werd door bijna iedere aanwezige skeptisch ontvangen, ikzelf had in ieder geval mijn bedenkingen. Maar nu ik een twee-socket, achtkernige Nehalem-systeem twee weken heb laten draaien, kan ik eigenlijk alleen concluderen dat Knupffer gelijk heeft. Intel heeft zijn concept verbeterd, mede door af te kijken bij AMD.

Toen AMD nog heerste op het gebied van prestaties met zijn Opterons, was Intel driftig in de weer met het plakken van twee aparte processorkernen op een enkele chip. De prestaties waren weliswaar acceptabel, de geheugencontroller was niet in de processor zelf geïntegreerd. Het gevolg is geheugenlag, en de processor miste de brute NUMA (Non-uniform Memory Access)-kracht waarmee de Opteron zo enorm kon scoren. Daarom is Nehalem net als de Opteron gebaseerd op NUMA-architectuur, en steken deze processors ver uit boven alles wat Intel in het verleden heeft gebouwd. Ja, ik ben erg onder de indruk.

Onder de motorkap

De Nehalem-processors (Xeon 3500 voor de single socket, Xeon 5500 voor twee-socketsystemen) zijn gebouwd op een quadcore-ontwerp, met 731 miljoen transistors, 256 KB L2 cache per kern, 8 MB L3 cache, verbeterde caching over de hele breedte en verbeterde branche-voorspelling. In de kern is Nehalem een mengeling van de kracht van de legacy Xeonprocessors en de fundamentele overstap naar NUMA.

Met NUMA krijgt elke cpu zijn eigen geheugencontroller. Hiermee komt DIMM-ruimte vrij voor specifieke cpu's, en dat biedt een geheugenbandbreedt van 25,6 GBps per link, of gecombineerd met DDR 3 RAM 6,4 Gigatransfers per seconden. De RAM-klok loopt op 800, 1066 of 1333 MHz. Als de DIMM ruimtes wordt gebruikt door een enkele RDIMM (Registered DIMM) per kanaal, dan is de hoogste snelheid van 1333 MHz mogelijk. Met de toevoeging van RAM valt de snelheid wel weer terug naar 1066 of 800 MHz, maar met zes 4 GB RDIMMs kan een dual-socketsysteem tot 24 GB aan RAM draaien op 1333 MHz. Op de Tylerburg chipset is het mogelijk om de RAM op te krikken naar 144 GB (72 GB per kern), met een kloksnelheid van 800 MHz.

Maar Nehalem is meer dan NUMA alleen. De ondersteuning van technologieën is verbeterd, met verbeterde Virtualization Technology extensies, DDR3 ondersteuning, en SSE 4.2 instructies om het verwerken van tekst te versnellen. Belangrijkste upgrades blijven de flink uitgebreide geheugendoorvoer en QuickPath, de interconnectie die de verouderde front-side bus vervangt. Toch zijn ook de eerder genoemde uitbreidingen ook zeer welkom.

Turbo

Een nieuwe functie is ook de zogenaamde Turbo-mode. Weet je nog, de tijd van de oude 8088 cpu's van 8 MHz die met een druk op de Turbo-knop 16 MHz deden? Nou, dit is even iets anders. De Turbo in Nehalem geeft de kernen de ruimte om uit zichzelf in een hogere klokversnelling te schakelen op het moment dat de werklast ernaar is. Die 'boosts' gaan tot stappen (Bins) van 133 MHz extra per kern, en eigenlijk kun je spreken van overklokken-on-demand.

De term 'Turbo' klinkt een beetje potserig, maar het is een maar een klein hulpje bij het verwerken van enkel-threaded processen omdat het alleen kan worden gebruikt op een beperkte selectie van fysieke kernen. Een of twee kernen kunnen drie extra Bins krijgen, terwijl de threads slechts toegang hebben tot een enkele bin op een enkele kern. Dit alles is afhankelijk van de temperatuur van de processor, en het is dynamisch in te stellen.

Whoa Nehlly!

Alle functies bij elkaar brengen een flinke prestatieverbetering met zich mee. Hoe flink? De Nehalem liep in mijn testen soms twee keer zo snel als de Xeon 5300, en pakt ongeveer 50 procent aan snelheid extra op de 5400. Flink dus. In mijn eerste tests gebruikte ik bijvoorbeeld een HP ProLiant DL580 met vier quadcore Xeon X7350 cpu's op minimaal 2,93 GHz per core uitkwamen. Het Nehalem-systeem had twee Xeon W5580 quadcores, en die kwam met hyperthreading uit op 3,2 GHz per kern.

De tests die ik uitvoerde waren voornamelijk gebaseerd op enkel-threaded processen, met als uitzondering mijn MySQL InnoDB-databasetest. De enkel-threaded tests draaiden op in batches van zestien gelijktijdige taken, dus elke test bestond uit zestien identieke processen voor elk scenario. Daarbij kwamen processen om de hoek kijken als LAME encoding, gzip en bzip2-compressie en MD5 sum tests van grote bestanden. Hou in het achterhoofd dat het X7350-systeem zestien fysieke kernen heeft, en de Nehalem zich moet behelpen met acht, weergegeven als zestien virtuele processors met HyperThreading.

Gemiddeld scoorde het Nehalem-systeem zestig procent hoger in de snelheidstests dan de X7350. Zo deed de X7350 77 seconden om zestien identieke .wav-bestanden van ieders 200 MB groot om te zetten naar MP3. Nehalem klaarde dezelfde klus in veertig seconden. De MP3'tjes heb ik met gzip gecomprimeerd, en daar deed de X7350 zes seconden over. Nehalem was in twee seconden klaar. Een conversie van een 27 MB groot MPEG-4 bestand naar FLV met MEncoder duurde met X7350 43 seconden, en kreeg een output van 100 frames per seconde. Nehalem: 27 seconden, en de output was 163 frames.

Voor de database-tests gebruikte ik de MySQL-bench testsuite. Deze draait een grote hoeveelheid aan database-opdrachten voor InnoDB. X7350 had consistent 833 seconden nodig, wederom veel trager dan Nehalem, die het kon in 713 seconden.

Meer per kern

Deze resultaten zijn bijzonder indrukwekkend, ook al worden ze afgezet tegen een chip uit het Tigertown-tijdperk. Een dual-socket Nehalemsysteem liet een vier-socket X7350 systeem alle hoeken van het veld zien. Waar de X7350 slechts een enkel proces per kern voorgeschoteld kreeg, moest Nehalem het stellen met twee processen per kern.

Nog indrukwekkender is dat ik nog een klein detail buiten beschouwing heb gelaten: De X7350 was uitgerust met een hardware RAID 0 set van vier 15.000 RPM SAS-schijven, en deed niets anders dan het draaien van mijn tests. Op Nehalem draaide ik vier SATA-schijven in RAID 5, en tijdens het testen gebruikte ik hem als standaard werkstation. Dat betekent dat hij een 30 inch monitor moest aansturen (met behulp van een Nvidia Quadro FX 5500), waarop ik een full-screen MPEG-film keek en waarop ik meer dan 500 processen draaide over vier virtuele machines. Daarbij tientallen terminal sessies, Firefoxsessies, Java-applicaties en streaming audio. En dan kan het nog deze prestaties overleggen.

Ik kreeg ook de kans om de X5570 Nehalem te onderwerpen aan een andere serie tests. Deze bestond uit FPGA-extractie met tools als Synplify Pro en anderen. Deze tools worden gebruikt om ASIC-chips te bouwen en te testen; een volledige run van synthese en mappingprocessen kan uren of zelfs dagen duren om uit te voeren. Een vorige simulatie (op een dubbelkernige 2,66 GHz Xeon X5355) klokte ik iets meer dan zeven uur. De Xeon X5570 die op 2,93 GHz loopt deed het in 3,5 uur. De pure kracht die Nehalem kan leveren aan ontwikkelprojecten is enorm.

Dan het energieverbruik. Daarvoor wil ik Micah Schmidt van 2cpu.com aanhalen: "In exact hetzelfde geconfigureerde Supermicro werkstations gebruikt de Nehalem Xeon W5580 in ruststand gemiddeld 70 Watt minder dan de Harpertown Xeon 5492. Koppel dat aan de hogere snelheid, en je ziet dat het verschil in prestaties-per-Watt immens is."

Conclusie

De pure kracht van de Nehalem Xeon geeftt alles dat ermee in aanraking komt vleugels, of je het nou hebt over het ontwerp van ASIC of weersimulaties. Zware, data-intensieve applicaties die eerst dagen nodig hadden kunnen nu in uren afgehandeld worden. En wat eerst uren duurde, duurt nu minuten. Nehalem zal de snelheid waarmee we technologie ontwikkelen opkrikken, van mobiele telefoons tot magnetrons. Computergerenderde beelden voor films duurt een stuk minder lang. Animatiefilms worden goedkoper, en de modellen worden realistischer.

Dit geldt voor elke stap die wordt gezet voor microprocessors, maar deze stap is groter dan de meeste andere stappen. Processen die een paar maanden terug niet realistisch waren, komen nu binnen handbereik.

Nehalem is meer dan een nieuwe, snellere chip. Het is een doorbraak in processortechnologie. Het is ook het gevolg van de tijd dat AMD Intel aftroefde met 64-bits, slechts een paar jaar geleden. Je kunt je afvragen welke motivatie Intel nog nodig heeft om door te ontwikkelen, nu het bedrijf geen serieuze concurrent meer heeft. Mensen hebben de neiging harder te lopen als ze worden aangejaagd door een wolf, en zonder die drijfveer kan de sprint al snel verworden tot een wandeling.

We moeten allemaal hopen dat AMD de rol van wolf nog voldoende kan vervullen, en dat ze zelf met een vergelijkbare chip op de markt komen. Daarbij moet gezegd worden dat het vooral de keuze van Intel om over te stappen op een geïntegreerde geheugencontroller is geweest waardoor Nehalem zo baanbrekend is, en zo een kunstje kunnen ze maar een keer flikken. De volgende stap voor Intel, het krimpen van Nehalem naar 32 nm met Westmere, zal niet direct een snelheidsverbetering met zich meebrengen.

Maar wat de motivaties en ideeën ook zijn achter de ontwikkeling van Nehalem, en wat de toekomst ook brengt, de brute kracht die Nehalem kan overleggen is domweg verbijsterend.

Bron: Infoworld.com Bron: Techworld