Met deduplicatie wordt een storagetechniek bedoeld die data binnen een omgeving opdeelt in brokjes, en controleert of deze wellicht onnodig twee keer opgeslagen staan. De overbodige brokken worden vervangen door een hashfunctie, die het systeem direct doorwijst naar de juiste plek, zonder dat een eindgebruiker daar iets van merkt.

Dat is een andere techniek dan de al langer bestaande Single Instance Storage-aanpak. Daar worden hele bestanden op zo’n manier ingedeeld en vervangen tot er slechts één enkele kopie van het bestand over blijft. Misleidend genoeg is daar door sommige vendoren de term 'file deduplication' (bestandsdeduplicatie) voor aangenomen. Echte deduplicatie is veel fijnzinniger, en biedt veel grotere besparingen in ruimte. In sommige gevallen wordt 90 procent beloofd.

Primaire storage

Zeker de laatste tijd komt deduplicatie veelvuldig terug in marketingmateriaal en functielijsten van leveranciers. Reden daarvoor is volgens een rapport van Gartner dat de voortgang van de techniek het steeds beter mogelijk maakt om deduplicatie toe te passen op de primaire storage, dus op de schijven die voor operaties direct gebruikt worden.

De technologie komt ook steeds breder beschikbaar. Dat komt volgens Laurent Dedenis, verantwoordelijk voor de Europese tak van leverancier Acronis, vooral doordat deze steeds geschikter wordt voor de tak van de opslag waar dedup het meeste effect kan sorteren. Omdat de bandbreedte sneller wordt, begint de technologie namelijk ook door te dringen tot de hogere opslagtiers, oftewel de schijven van waarop gegevens veel en vaak benaderd worden. "De uitdaging ligt met dedup vooral op het vlak van prestaties, maar daar zie je veel vooruitgang, zeker de laatste tijd. Uiteindelijk zal het commodity worden, een functie die elke leverancier standaard levert", zegt Dedenis.

Daarbij komt volgens Dedenis dat de producten steeds vaker softwarematig zijn ingericht. "Grote leveranciers kiezen vaak voor een appliance waar de dedup zit ingebakken. Maar wij hebben een volledig softwarematige aanpak. Dat maakt het toegankelijker voor middelgrote en kleinere bedrijven."

Grotere en kleinere bedrijven

De manier waarop dedup potten kan breken voor kleinere bedrijven, verschilt met die waarop de technologie nuttig is voor de grote jongens waar de technologie al iets langer rondzoemt. "Je ziet dat dedup interessanter wordt voor de kleinere bedrijven, omdat het voor hen vooral een manier is om te besparen op schijfruimte", zegt Theo van Teylingen, directeur van NetApp Benelux.

Voor de grote concerns ligt het voordeel van dedupe subtiel anders: zij zijn vooral op zoek naar efficiënter schijfgebruik. Bij de grote jongens is er aan schijfruimte geen gebrek, maar ze willen de opslagmedia wel zodanig gebruiken dat bijvoorbeeld niet-actieve data ook wordt weggeschreven naar niet-actieve media. "Ergens is het vergelijkbaar, want in beide gevallen gaat het om storagebesparing. Alleen het directe doel is een beetje anders."

Volgens Van Teylingen kan dedup veel voordeel bieden in vooral gevirtualiseerde omgevingen. "Alle images van desktops zijn dan bestanden geworden. Daar is met deduplicatie als technologie veel ruimte te winnen", zegt Van Teylingen.

Oppassen

Maar Deduplicatie wordt ook gebruikt voor bijvoorbeeld failover-operaties om bandbreedte te besparen, zegt vice president Andrew Barnes van leverancier Neverfail. "Wij gebruiken het voor de replicatie-component, de basis van onze failover-technologie", zegt Barnes. "Terwijl de data tijdens replicatie wordt overgeschreven naar de schijf, voert Neverfail deduplicatie 'on the fly' uit op byte-niveau. Het kijkt dan of gegevens eventueel al zijn overgezet aan de hand van een dedupe-dictionary, en mocht dat het geval zijn, zal Neverfail een pointer ervoor in de plaats zetten."

Maar dat wil niet zeggen dat deduplicatie overal zomaar geschikt voor is. Bij de technologie komt veel kijken. Zo mag het niet gebeuren dat twee aparte databrokken dezelfde hash toegewezen krijgen, anders loop je risico op dataverlies. De bestrijding daarvan, en het rondpompen van verwijsgegevens, kost extra bandbreedte, en applicaties die afhankelijk zijn van hoge I/O moeten met een grote boog om dedup heenlopen. Wie zijn gegevens versleutelt, kan ook tegen problemen aanlopen. En ook het eerder genoemde risico van gegevensverlies moet worden meegenomen.

Wie is er dan wel gebaat bij deduplicatie? Gartner stelt dat bedrijven steeds vaker te maken hebben met ofwel grote brokken gegevens (scans, film, rekenmodellen, databases), ofwel heel veel kleine, niet-gestructureerde bestanden (tekst, presentaties enzovoorts). De technologie kan daar helpen bij het beter beschikbaar houden van de gegevens; je hoeft immers minder vaak iets te verplaatsen naar een lagere tier, zo luidt de redenatie.

Toch is het nu nog zwaar oppassen met de term deduplicatie. Elke leverancier lijkt iets anders te verstaan onder dedup, en elke leverancier roept in ieder geval dat ze een uniek aanbod hebben. Bron: Techworld