De Nederlandse Koninklijke Bibliotheek (KB) heeft de taak om Nederlands cultureel erfgoed te bewaren. In het voortschrijdende digitale tijdperk gaat het niet langer om boeken, kranten en tijdschriften die bewaard moeten blijven voor het nageslacht. Ook het web moet geïndexeerd, gekopieerd en opgeslagen worden. In 2013 wil de KB 10.000 Nederlandse sites hebben binnengehaald.

Op dit moment zijn er tussen de 2.500 en 3.000 sites geselecteerd om in het webarchief opgenomen te worden. Die sites moeten als alles goed gaat in de eerste helft van 2010 online doorzoekbaar zijn via de KB. Het gaat in eerste instanties om sites van overheden, musea en verschillende culturele instellingen. Maar dat niet alleen.

Websites archiveren is lastig

Ook blogs van schrijvers zoals Ilja Leonard Pfeijffer worden opgenomen in de database. Verder wordt er in eerste instantie gedacht aan hogescholen, universiteiten en Koninklijke bonden en belangenorganisaties zoals de site van de Koninklijke Nederlandsche Schaatsenrijders Bond (KNSB) en Koninklijke Horeca Nederland. Ook site van De Rode Draad, de vakbond voor Nederlandse prostituees mag niet ontbreken. Op ict-gebied worden bijvoorbeeld de site van ICT~Office, het NGI (een platform voor ict-professionals) en de portal van Kennisnet over ict op school gearchiveerd.

Er zitten ook enkele minder logische keuzes bij, zoals de site van het Katholiek Nieuwsblad of vergelijkingssite Independer.nl. Ook jeugdprostitutie.nu is een vreemde eend in de bijt, die echter doorlinkt naar de overheidssite HuiselijkGeweld.nl.

De voorlopige lijst van te indexeren websites door de Koninklijke Bibliotheek is hier te vinden. De KB wijst erop dat de lijst per thema wordt opgesteld en nog geen representatieve afspiegeling vormt van de uiteindelijke lijst. Sites kunnen zich zelf bij de KB aanmelden om gearchiveerd te worden.

Lastige klus

Volgens Caroline van Wijk, die afgelopen jaren het project heeft gecoördineerd, is het kopiëren van websites in Nederland een lastige zaak. "Er is in Nederland geen depot wetgeving, terwijl de KB wel als taak heeft om alle publicaties die uitkomen in Nederland te bewaren", legt ze uit. De bibliotheek zal dus met alle individuele uitgevers afspraken moeten maken over het afdragen van exemplaren voor het archief. In België is het opbouwen van een depot wel per wet geregeld, van elke publicatie zijn er twee exemplaren die bewaard blijven door de Belgische Koninklijke Bibliotheek voor het nageslacht.

Herpublicatie

Met uitgevers van boeken en kranten worden dergelijke zaken makkelijk geregeld. Maar het indexeren van websites ligt lastiger omdat er veel meer van zijn en het aantal verschillende eigenaren ook enorm veel groter is dan bij boeken, tijdschriften of kranten. Daar komt nog bij dat de KB graag de verzamelde websites wil herpubliceren in een online archief. Hierbij moet er rekening gehouden worden met de huidige auteurswet en de bescherming van persoonsgegevens.

"Als iemand op een blog een mening of een kreet zet doet hij dat vast niet met het idee dat wij dat hier eeuwig gaan zitten bewaren", verduidelijkt Van Wijk. Dit is voor de KB dan ook nog een onbekend terrein. "Hoe dat precies gaat uitpakken moeten we nog maar eens zien." Dat is ook precies de reden waarom er voorlopig nog geen nieuwssites en populaire (nieuws-)weblogs worden binnengehaald. Hetzelfde geldt voor sociale netwerken. De KB wil dit uiteindelijk wel gaan doen. De mogelijke juridische problemen zijn nu nog moeilijk te overzien, volgens Van Wijk.

Wayback Machine

Voor het archiveren van de Nederlandse websites gebruikt KB een crawler van The Internet Archive, een non-profit dienst die het hele web wil archiveren voor het nageslacht. Sinds 1996 grazen hun crawlers het internet af om zoveel mogelijk sites op te slaan. De sites die zijn gecrawld zijn terug te vinden via de Wayback Machine. De archivering van de KB is anders dan die van The Internet Archive omdat de Nederlandse dienst door de overheid wordt gesteund.

"The Internet Archive kan er een keer mee ophouden", zegt Van Wijk. De KB wil ook graag hele websites binnen trekken, Internet Archive neemt meer de toplaag mee en niet de dieper liggende gedeeltes van de site. Doordat de bibliotheek beperkte middelen heeft worden geselecteerde sites gemiddeld drie keer per jaar gecrawled.

Geen Google

Van Wijk hoopt dat een eerste beta-versie van het project de eerste helft van dit jaar online staat. "We zijn zelf geen Google dus het is voor ons een hele nieuwe tak van sport." Het is de bedoeling dat in 2013 alle 10.000 geselecteerde sites gearchiveerd zijn en worden bijgehouden. Niet alle websites worden geïndexeerd door de KB. Er wordt ook een gedeelte gearchiveerd door Beeld en Geluid en politieke websites worden al gearchiveerd door Archipol.

"We zullen ook een keer dingen aan elkaar moeten gaan knopen", zegt Van Wijk. Ook op internationaal niveau moet dat ooit gaan gebeuren. Een overkoepelend webarchief moet uiteindelijk tot stand komen via het International Internet Preservation Consortium, de Koninklijke Bibliotheek is hier ook bij aangesloten.