Hadoop is een data management server die de grondslag vormt voor het succes van bijvoorbeeld Google, Facebook en Yahoo!. De software kan overweg met terabytes aan data, die verspreid staat over duizenden servers. Alleen is het bepaald niet makkelijk om de software te configureren. Daar heb je dus personeel voor nodig met veel kennis van zaken. Cloudera heeft daar nu verandering in gebracht.

MapReduce

Hadoop is een open source implementatie van de MapReduce technologie, die door Google is ontwikkeld en waarmee ze het klaarspeelden om gigantische hoeveelheden data in kleine stukjes op te delen en te verspreiden over duizenden computers, zonder het overzicht te verliezen. Hoe MapReduce precies werkt en details over het filesystem heeft Google altijd geheim gehouden, maar ze hebben wel wat papers gepubliceerd over de onderliggende technieken.

Op basis van die papers heeft Doug Cutting een open source implementatie geschreven, die hij heeft vernoemd naar de pluche olifant van zijn zoontje, Hadoop. Yahoo! heeft Cutting vervolgens ingehuurd om het systeem verder te ontwikkelen. In de jaren die daar op volgden heeft Yahoo! ettelijke miljoenen in Hadoop gestoken en is het in grote mate afhankelijk geworden van de software. Maar die is nog steeds open source en gelicenceerd onder de Apache 2.0 licentie. Dus iedereen kan het vrij gebruiken, aanpassen en verspreiden.

In de loop van de tijd hebben andere grote bedrijven zich ook aangesloten bij de gebruikersgroep. Microsoft zet Hadoop bijvoorbeeld in, en Facebook gebruikt het om foto’s op te slaan. Zo zijn er nog veel meer bedrijven die er intensief gebruik van maken. Om het in te zetten had je voorheen veel technisch inzicht nodig, maar dat is nu dus verleden tijd. Cloudera biedt nu namelijk een makkelijke manier om Hadoop te configureren en te installeren.

Cloudera

Cloudera is een bedrijfje dat is opgericht door vier mensen, waaronder een ex-Google-, een ex-Yahoo!- en een ex-Facebook-ontwikkelaar. Het bedrijf wil zijn geld verdienen met support en consulting. Toch vonden de oprichters dat de configuratie van Hadoop makkelijker moest worden gemaakt. Daarom kun je nu via hun website met een wizard in een aantal stappen een configuratiefile aanmaken, waarna je een RPM voor Red Hat Linux distributies kunt downloaden. De configuratiefile blijft behouden op hun servers, zodat die later nog kan worden aangepast.

Volgens Mike Olson, een van de oprichters van Cloudera zal dit het vertrouwen in Hadoop doen toenemen: “Een distributie die makkelijk is te vinden, te downloaden en te installeren bespaart tijd en verhoogt het vertrouwen. Dat maakt het mogelijk voor gewone bedrijven om Hadoop in te zetten, die dat anders niet zouden kunnen. Met de Cloudera Distribution for Hadoop willen we de kracht van Google beschikbaar maken voor gewone bedrijven overal ter wereld.”

Verder heeft Cloudera voorgeconfigureerde VMware images in de aanbieding voor Linux, Windows en Mac, waarin voorbeeldcode zit en alle componenten die nodig zijn voor de Cloudera Distribution voor Hadoop.

Volgende week op ApacheCon in Amsterdam is er een hele track gewijd aan Hadoop.

Bron: Techworld