"Gebruikers kunnen er veel meer op vertrouwen dat deze versie ondersteund zal worden door de open source community", zegt Arun Murthy, vice president van Apache Hadoop tegen Webwereld's zustersite PC World. "Er is geen verwarring meer over welke versie van Hadoop gebruikt moet worden voor welke functionaliteit."

Klaar voor het bedrijfsleven

Er zijn drie nieuwe functionaliteiten aan versie 1.0 toegevoegd die het verschil maken, stelt Murthy. De belangrijkste is de end-to-end security. Hadoop kan op een heel netwerk beveiligd worden met het Kerberos netwerk-authenticatieprotocol. Dat betekent dat Hadoop ingezet kan worden door bedrijven die omgaan met gevoelige of persoonlijke data.

Ten tweede is er een application programming interface (api) toegevoegd, ook wel de webhdfs REST API genoemd, wat voluit staat voor representational state transfer application programming interface. Dat stelt programmeurs en administrators in staat om met bekende webtechnieken gebruik te maken van Hadoop. Hierdoor is de software te gebruiken door meer organisaties. Tot slot maakt versie 1.0 volledig gebruik van HBase, waardoor administrators een vertrouwde relationele database-achtige structuur krijgt.

Grote datasets analyseren

Hadoop werd in 2005 leven ingeblazen als de open source implementatie van de MapReduce technologie van Google. Dat is een techniek om data die verspreid staat op veel verschillende servers te analyseren. In eerste instantie was het bedoeld voor zoekmachines maar de software kan ook gebruikt worden voor het analyseren van grote datasets, die ook wel kortweg big data worden genoemd.

Hadoop is een open source softwarebibliotheek, een framework dat bedoeld is voor het gedistribueerd verwerken van grote datasets in computerclusters met een simpel programmeermodel. De software is zo ontworpen dat er makkelijk geschaald kan worden van een enkele server naar duizenden machines die allen een lokale rekenkracht en opslagcapaciteit hebben.

In plaats van te vertrouwen op hardware voor een hoge mate van beschikbaarheid, kan de software zelfstandig fouten detecteren en oplossen in de applicatielaag. Hiermee wil Hadoop ervoor zorgen dat het serviceniveau hoog blijft terwijl er gebruik wordt gemaakt van een computercluster.