In 1986 ging in Groot-Brittannië het Domesday Project van de BBC van start, ter viering van de 900ste verjaardag van het originele Domesday Book: een onderzoek naar het bodemgebruik in Engeland in opdracht van Willem de Veroveraar in 1086. Voor een recenter onderzoek van het eiland leverden duizenden Britten tekst, afbeeldingen en video’s aan die op twee gewone laserdisks werden gepubliceerd.

Slechts 15 jaar later bleek het onmogelijk deze media nog te benaderen zonder een heleboel gespecialiseerde hardware en uitgebreide software-emulaties. Het Centre for Computing History in Haverhill, Engeland, is inmiddels in het bezit van een werkende emulatie en hoopt de inhoud op het Web te kunnen publiceren.

Ondertussen ligt het originele Domesday Book (handgeschreven op schapenvel) keurig in de Britse archieven; na negen eeuwen nog steeds toegankelijk voor eenieder die Latijn kan lezen.

Iedereen die gegevens op 5.25-inch floppy’s of tekst in WordStar-formaat heeft opgeslagen, zit met een probleem dat vergelijkbaar is met dat van het Domesday Project van de BBC. We zullen het hoogstwaarschijnlijk zelf nog meemaken dat de digitale data die we nu op grote schaal genereren onbruikbaar worden, tenzij we stappen ondernemen om die gegevens te conserveren.

De situatie is niet geheel te wijten aan de geplande veroudering in de informaticasector. Kort samengevat heeft digitale opslagtechnologie een aantal intrinsieke nadelen die papier onsterfelijk doen lijken.

De sterfelijkheid van data

Een harde schijf die uit een computer wordt gehaald en op een plank in een kantoor wordt bewaard, zal uiteindelijk onbruikbaar worden, gewoon vanwege dagelijkse temperatuurschommelingen, zegt Tom Coughlin, gegevensopslagadviseur in San José. Volgens hem zal de thermische energie die het medium ingaat geleidelijk zorgen voor spontane omkering van de magnetische deeltjes die de informatie opslaan, totdat de oorspronkelijke data verloren is. Dergelijk dataverlies zou de eerste 10 jaar geen probleem mogen vormen, voegt hij toe. Maar daarna is het niet meer de vraag of, maar wanneer de data onbruikbaar wordt.

Magneetbanden kampen met hetzelfde probleem, maar in hun geval duurt het tientallen jaren voordat er op deze manier gegevens verloren gaan. Dat komt doordat magneetbanden een lagere dichtheid hebben dan harde schijven, vertelt Coughlin. Aan de andere kant kom je daar weer een ander probleem tegen: delaminatie. Dit doet zich voor wanneer het magnetische medium los komt te zitten van de band of aangevallen wordt door schimmels. Soms moeten de media door middel van een bakproces opnieuw aan de banden worden vastgehecht zodat ze nog voor een laatste keer gelezen kunnen worden om hun inhoud naar een ander medium over te zetten, aldus Coughlin.

USB-geheugensticks zijn ook aan thermische verwijdering onderhevig en hebben met een extra risico te maken omdat ze over het algemeen de allergoedkoopste controllers bevatten. “Ik zou ze niet voor archiveringsdoeleinden gebruiken,” zegt hij. Hoe dan ook vereist het gebruik van USB-sticks dat men over tientallen jaren nog steeds gebruik maakt van USB-poorten. Niemand heeft enig idee hoe laptops eruit zullen zien over 20 jaar, laat staan 50.

Wat DVD’s en CD’s betreft rapporteert Bill LeFurgy, projectmanager van de Library of Congress, dat zijn organisatie met behulp van ovens versnelde verouderingstests op deze media heeft uitgevoerd en enorme verschillen tussen schijven heeft geconstateerd – zelfs tussen schijven van hetzelfde merk. “Sommige gaan 10 jaar mee en andere veel minder lang,” zegt hij. “Na een jaar of vijf zou ik me zorgen beginnen te maken.”

Andere opslagprofessionals klagen dat het doorvoervermogen van DVD’s te traag is voor archivering. Het doorvoervermogen van een DVD is over het algemeen minder dan een kwart van dat van magneetbanden. Daarnaast is het opslagvermogen van DVD’s beperkt tot enkele gigabytes per schijf.

En net als bij andere opslagformaten zit je met de vraag of er over enkele decennia nog CD- of DVD-spelers in gebruik zullen zijn.

Online overlevingsvermogen

Hoe zit het met online opslag? Dit zijn harde schijven die continu aan staan en klaar zijn voor directe toegang. Hierdoor kunnen de data constant op integriteit gecontroleerd en eenvoudig gekopieerd worden. Maar de gegevens kunnen ook gemakkelijk aangetast raken en de betrouwbaarheid die op lange termijn nodig is voor archivering is nog niet in zicht, klaagt David S.H. Rosenthal, hoofdonderzoeker van het "Lots of Copies Keep Stuff Safe" (LOCKSS) programma, een intiatief van Stanford University Libraries.

Rosenthal heeft onderzocht wat er nodig is om ervoor te zorgen dat er een 50% kans bestaat dat een petabyte aan online opgeslagen informatie een eeuw later nog bruikbaar is. Door middel van een analyse van schijf-onderhoudsgegevens, gepubliceerd door verscheidene datacentra, kwam hij erachter dat om dat doel te bereiken de betrouwbaarheid van online opslag een miljard maal omhoog moet.

Maar ook al zouden we een miljardvoudige verbetering van de betrouwbaarheid van online opslag voor elkaar krijgen, dan nog is er geen realistische methode om een dergelijk systeem te testen, behalve dan het maar ergens in te pluggen en honderd jaar te wachten, merkt hij op.

Met zo’n lage kans op digitale overleving en met zoveel informatie die van origine digitaal is “kunnen we over 50 jaar met digitale middeleeuwen te maken krijgen, en zullen geleerden in de toekomst onze cultuur niet kunnen begrijpen,” aldus Andy Maltz, directeur van de raad van wetenschap en technologie van de Academy of Motion Picture Arts and Sciences (de groepering die de Oscars toekent) in Beverly Hills, Californië.

Conserveringsstandaarden

Verschillende organisaties zijn zich bewust van het feit dat we met een steeds groter wordend probleem te maken hebben. Zij werken dan ook aan nieuwe benaderingen van het archiveringsprobleem,waarbij ze zich met name richten op manieren om het gevaar van formaatveroudering te reduceren.

Het voorkomen van veroudering draait over het algemeen om het ontwikkelen van woordenboeken met metadata: informatie over een bestand die samen met een bestand wordt opgeslagen. Op die manier komen toekomstige gebruikers niet vast te zitten, zoals de wetenschappers in 1999 die geen wijs konden worden uit de magneetbanden met daarop de data van NASA’s Marssonde uit 1975. (Pas nadat ze enkele uitgeprinte pagina’s gevonden hadden konden ze ongeveer een derde van de data analyseren. Voor meer informatie, zie "The lost NASA tapes: Restoring lunar images after 40 years in the vault.")

Naast standaarden is er nog een subtieler managementprobleem. “De meeste organisaties kunnen je niet vertellen hoe lang bepaalde elektronische gegevens bewaard moeten worden en slechts 5 tot 10 procent tagt de inhoud met voldoende gedetailleerde metadata zodat werknemers weten hoe lang ze het moeten bewaren,” zegt Donald Post, SNIA-woordvoerder en partner van Imerge Consulting, een firma uit Chicago die gespecialiseerd is in dossiermanagement. “Inmiddels bestaat 80 procent van wat men probeert te bewaren uit duplicaten, maar er wordt geen tijd besteed aan het weggooien van de duplicaten. En 95 procent denkt dat het maken van een routinematige backup voldoende bescherming biedt.”

IT-managers van ondernemingen doen geen moeite commerciële oplossingen voor het probleem af te dwingen, waardoor leveranciers geen haast maken om deze te leveren, zegt Post. Hij verwacht echter wel dat de situatie de komende drie jaar zal veranderen wanneer leveranciers zich bewust worden van het commerciële potentieel voor digitale conserveermiddelen.

De bits in leven houden

Natuurlijk zijn er wel organisaties die succesvol omgaan met de uitdaging van digitale archivering.

“De meeste landen hebben te kampen met dit digitale conserveringsprobleem,” zegt Dyung Le, directeur systems engineering voor het Electronic Records Archive initiatief van de US National Archives and Records Administration in College Park, Maryland. Daar worden gearchiveerde banden elke 10 jaar opnieuw gekopiëerd. National Archives probeert van alles op zijn minst drie kopieën te hebben, waarvan zich tenminste één kopie off-site bevindt. Het bedrijf beheert meer dan 400 terabytes aan gegevens, schat hij.

Aangezien niemand weet wat voor computerapplicaties er de komende eeuwen in gebruik zullen zijn, wordt tekstgebaseerd materiaal naar XML geconverteerd, wat gebaseerd is op ASCII. Verschillende soorten metadata worden in het bestand bewaard, waaronder beschrijvende data die gebruikt kan worden als zoekhulp. Le zegt dat de XML-bestanden de metadata opslaan als een extensie van PREMIS (Preservation Metadata: Implementation Strategies), een digitale conserveringsstandaard die ook op XML en ASCII is gebaseerd, en gecreëerd is door het Online Computer Library Center.

Voor non-tekstuele data is er geen tussenformaat zoals XML, zegt Le. Het beste wat een organisatie die materiaal wil archiveren kan doen is daarom: kijk in welk formaat het materiaal is opgeslagen en maak plannen om het materiaal uiteindelijk te migreren naar het applicatieformaat dat in de toekomst dominant is. Dit moet gebeuren op het moment dat er nog steeds systemen beschikbaar zijn die het oorspronkelijke formaat kunnen converteren, zegt Le. Met andere woorden: organisaties moeten een inschatting maken van welke nieuwe formaten de standaarden van de toekomst zullen worden en hun data daar naar converteren zolang dat nog mogelijk is.

Een archivaris moet ook in staat zijn te verklaren dat het materiaal dat wordt opgeslagen een authentieke kopie is, legt hij uit. Dat wordt bereikt door voor elk bestand een hash-functie te creëren; de hash-tag reist met het bestand mee. Wanneer er kopieën aangeleverd worden, moet de archivaris ook verklaren dat er geen karakteristieken van het bestand veranderd zijn die de betekenis van het materiaal beïnvloeden. Tekst moet soms in zijn oorspronkelijke formaat worden bewaard omdat men de formattering van tekst als een belangrijk onderdeel van de betekenis ervan beschouwt, voegt Le toe.

Andere overheidsbureaus, staatsarchieven en bibliotheken, en soms zelfs particulieren, hebben ook te maken met het probleem van digitale conservering. Voor hen heeft in Amerika de Library of Congress (onder directie van het Congres) het National Digital Information Infrastructure and Preservation Program (NDIIPP) opgericht, zegt LeFurgy.

NDIIPP-functionarissen werken samen met zo’n 170 stakeholders, waaronder handelsondernemingen en buitenlandse overheden, en publiceren een aantal tools en diensten op DigitalPreservation.gov.

De Library of Congress heeft op dit moment zelf ongeveer 167 terabytes aan digitale inhoud gearchiveerd, waaronder websites die te maken hebben met nationale verkiezingen en informatie over belangrijke gebeurtenissen zoals orkaan Katrina. Net als de National Archives bewaart de Library of Congress meerdere kopieën en probeert men formaatveroudering te voorkomen, zegt LeFurgy.

Dankzij hun voortdurende satellietonderzoeken voegt de US Geological Survey (USGS) per maand zo’n 50 terabyte aan informatie toe aan hun archieven. Volgens John Faundeen, archivaris bij het USGS Earth Resources Observation and Science Center in Sioux Falls, South Dakota, beheren ze momenteel ongeveer 4,5 petabytes (kopieën meegeteld).

Het centrum heeft een drie kopieën opslagstrategie: de eerste kopie staat online, de tweede is ‘nearline’ en de derde bevindt zich off-site. (Dit weerspiegelt de opslagstrategie die bekend staat als information life-cycle management, en die al door veel IT-afdelingen wordt gebruikt.) Het Earth Resources Observation and Science Center probeert elke drie tot vijf jaar naar nieuwe media te migreren. En het probeert van alle media bij te houden wanneer ze in gebruik zijn genomen, om te voorkomen dat ze iets blijven gebruiken dat niet meer door de leverancier wordt ondersteund, legt Faundeen uit. Om het jaar doet het centrum onderzoek naar de offline mediasector om te kijken wat er zoal op de markt is.

Bezorgde Oscars en bibliotheken

Toen het duidelijk werd dat digitale data niet-permanent zijn kwam de filmindustrie voor een nare verrassing te staan. Voordat Hollywood digitale technologie toepaste, maakte men gebruik van celluloid film. En films die op dat medium gearchiveerd zijn gaan al een eeuw lang mee, volgens Maltz van de Academy of Motion Picture Arts and Sciences. Een onderzoek van de Academy uit 2007 wees uit dat de lange-termijnkosten van het archiveren van het mastermateriaal van een commerciële celluloid-film op 1.059 dollar per jaar liggen. In digitaal formaat zijn de kosten 11 keer zo hoog: 12.514 dollar per jaar.

Met digitale technologie “moet je elke drie tot vijf jaar je gegevensformaten en opslagmedia (je technologie-infrastructuur) migreren, anders kan je data verloren gaan,” zegt hij.

De Academy heeft verscheidene projecten opgezet om te proberen het probleem aan te pakken. Zo heeft men een poging gedaan om image-bestandsconversieformaten en metadatastandaarden te ontwikkelen die zouden werken voor de filmindustrie. En verder heeft de Academy een digitaal conserveringssysteem gebouwd. “Ik kan zeggen dat het veel gecompliceerder bleek te zijn dan we in eerste instantie dachten,” zegt Maltz over de digitale initiatieven van Hollywood.

Diefstal

Het vluchtige karakter van digitale gegevens heeft ook bij bibliotheken voor problemen gezorgd, zegt Vicky Reich, hoofd van het LOCKSS-programma van Stanford University Libraries. Niet alleen kan materiaal zomaar verdwijnen, lastpakken kunnen met dingen knoeien zonder bewijs achter te laten.

“Papieren bibliotheken worden regelmatig aangevallen,” zegt ze. Bibliothecarissen hebben te maken met mensen die boeken of tijdschriften weghalen over onderwerpen waar ze het niet mee eens zijn. Van geprinte publicaties zijn er gelukkig vaak meerdere kopieën aanwezig in verschillende bibliotheken die verspreid zijn over verschillende regio’s, dus de kans dat iemand erin slaagt een specifiek stuk materiaal volledig te elimineren is zeer gering.

Het LOCKSS-project heeft dezelfde gedecentraliseerde benadering in het digitale domein. Deelnemende bibliotheken (momenteel zo’n 200, voornamelijk op universiteiten) stellen een allereerst een PC beschikbaar voor het archiveringsproject; de machine moet een internetverbinding hebben en tenminste twee terabyte aan opslagruimte, en hij moet voorzien zijn van open-source LOCKSS-software. Elke bibliotheek kiest vervolgens materiaal uit een lijst van ongeveer 420 uitgevers die hun publicaties ter beschikking hebben gesteld voor archivering, of een bibliotheek kan zelf ergens anders toestemming krijgen. De machines doorzoeken de bronnen en kopiëren hun materiaal. De systemen van de bibliotheken dienen daarbij als proxy’s voor de oorspronkelijke sites.

LOCKSS-machines met dezelfde originelen vergelijken hun inhoud en repareren het waar nodig. Er is geen backup op band – de machines backuppen elkaar, zegt Reich. Het “magische getal” dat nodig is om conservatie te garanderen lijkt zes of zeven te zijn en komt voort uit willekeurige overlap tussen de conserveringskeuzes die gemaakt worden door de deelnemende bibliotheken, voegt ze toe.

Archiveringsstandaarden in de maak

Een vaak genoemd voorbeeld van een een groep die aan archiveringsstandaarden werkt is de Storage Networking Industry Association (SNIA) in San Francisco. Wayne Adams, voorzitter van SNIA en senior technoloog bij opslagleverancier EMC in Hopkinton, Massachusetts, vertelt dat ze om het probleem aan te pakken de volgende drie standaarden hebben ontwikkeld:

XAM (Extensible Access Method): Volgens Adams scheidt deze standaard de applicatie van de data en laat het je “de data op zichzelf beheren zonder dat je je zorgen hoeft te maken over de voorwaartse migratie van de applicatie. Anders zou je een heel systeem in een tijdcapsule moeten stoppen om de data over 15 jaar nog te kunnen gebruiken.” Volgens SNIA bevat XAM metadatadefinities om applicatie-interoperabiliteit voor gearchiveerde data mogelijk te maken en om het beter doorzoekbaar te maken. SNIA's website geeft een lijst van op XAM-gebaseerde producten en diensten van 13 verschillende organisaties. •

SIRF (Self-contained Information Retention Format): Deze standaard zou het toekomstige gebruikers mogelijk moeten maken gearchiveerde data te doorzoeken zonder dat ze de oorspronkelijke applicatie hoeven te gebruiken. De SNIA-literatuur noemt het een “specificatie die een logisch containerformaat definieert dat geschikt is voor de opslag van digitale informatie op de lange termijn.”•

CDMI (Cloud Data Management Interface): Deze standaard definieert ook metadata en andere opslagparameters en is daardoor van toepassing op archivering, aldus Adams.

Een blik op de toekomst

Alles bij elkaar klinken de rentmeesters van de digitale archieven niet al te positief over de toekomst.

“Er is op dit moment geen antwoord op de kern van het technologieprobleem; onze infrastructuur houdt geen rekening met de behoefte aan conservering op de lange termijn,” zegt Maltz.

“Het sleutelwoord is waakzaamheid,” zegt Faundeen op het USGS. “Er moeten voortdurend nieuwe conserveringsinitiatieven komen. Je kunt niet berusten op eerder werk. Je moet constant vooruit kijken.”

Le zegt bij de National Archives: “Het is een eindeloos proces en de situatie zal alleen maar erger worden.” Het aantal verschillende gegevensformaten blijft doorwoekeren en de hoeveelheid data die bij de National Archives terechtkomt kan op elk moment te overweldigend worden. Desondanks, zegt hij, “ben ik ervan overtuigd dat de dingen die we verwerken geconserveerd zullen worden.”

Het laatste woord gaat voorlopig naar Coughlin. “Als je wilt dat data blijft meegaan, kun je het niet zomaar ergens laten staan,” zegt hij. “Het moet actief zijn. Je moet er zorg voor dragen, of het zal uiteindelijk verloren gaan.”

Bron: Techworld