Storage

Met het toegenomen gebruik van ICT systemen is ook onze behoefte aan opslag capaciteit (storage) toegenomen. We slaan inmiddels muziek, video’s en foto’s allemaal digitaal op. Dit geldt niet alleen voor consumenten thuis, maar eveneens voor bedrijven en organisaties. De vraag naar opslag capaciteit neemt exponentieel toe evenals de kosten voor opslag. We kunnen verwachten dat de kosten voor (high end) opslag binnen afzienbare tijd onbetaalbaar worden. Het is de vraag welke technieken we dan moeten gebruiken?

De vraag naar opslag capaciteit groeit

storageNiet alleen slaan we steeds meer zaken digitaal op, we willen het vaak ook nog lang bewaren of er een historie van opslaan. Daarbij komt dat onze bestanden steeds groter worden omdat we foto’s van een hogere resolutie en film in HD (High Definiton) willen opslaan. Onze “mind set” verergert dit omdat we blijkbaar denken dat opslag van digitale gegevens goedkoop is. Niets is minder waar en zeker niet binnen een professionele omgeving. In dergelijke omgevingen is de opslag redundant uitgevoerd (er kunnen disks kapot zonder dat dit dataverlies tot gevolg heeft), moet het hoge performance bieden (dit betekent dure hardware en duur snel netwerk) en willen we zeker zijn dat we bij uitval van de opslag voorziening de data niet kwijt zijn (dus backups). Het is daarmee aannemelijk te maken dat de vraag naar opslag capaciteit exponentieel groeit i.p.v. lineair. Een voorbeeld uit de praktijk is, dat bij een ziekenhuis waar ik een project deed men vertelde dat elke nieuwe generatie röntgen scanner foto’s oplevert die 40 keer groter zijn dan die van de vorige generatie. Bovendien kunnen er nu ook filmpjes gemaakt worden.

Kosten

De meeste professionele organisaties of bedrijven hebben hun storage (opslag) gestandaardiseerd met behulp van een SAN (Storage Area Network). Dit zijn kwalitatief hoogwaardige oplossingen die zowel redundant, snel en daarom duur zijn. SAN’s zijn er in verschillende omvang en prijsklasse. Het is echter niet zo dat een SAN dat twee keer groot is ook twee keer zo duur is. De prijs stijgt sneller dan de omvang. Bovendien kunnen SAN’s weliswaar worden uitgebreid, maar er zitten grenzen aan. D.w.z vooraf zal toch een inschatting gemaakt moeten worden van de totale (eind) capaciteit. Dit bepaalt namelijk het model dat je kiest. Het moge duidelijk zijn dat hoe groter de capaciteit, hoe duurder de hardware. Naast redundantie van de SAN (redundante disks, voeding e.d.) willen veel organisaties tegenwoordig graag geo-replicatie toepassen. Geo-replicatie is het bijhouden van de opgeslagen gegevens op twee, fysiek gescheiden locaties. Hiermee wordt de mate van redundantie vergroot, maar ook de kosten. De reden hiervoor is dat men niet afhankelijk wil zijn van een locatie / datacenter. Dit geeft wel aan hoe belangrijk de opgeslagen data wordt gevonden.

Gestructureerde data versus ongestructureerde data

Binnen de ICT wordt vaak een onderscheid gemaakt tussen gestructureerde data (databases)en ongestructureerde data (files e.d.). Al jaren neemt de hoeveelheid ongestructureerde data sneller toe dan de gestructureerde data. Een San is zeer goed geschikt voor beiden.

Alternatieven

Ook voor storage geldt, zijn er bedrijven die dit vraagstuk eerder hebben beantwoord? Welke oplossing hebben zij gekozen? Inderdaad zijn er bedrijven die eerder met “dit bijltje hebben gehakt”. Je zou kunnen stellen dat alle grote internet bedrijven dit opslag vraagstuk hebben opgelost, denk aan Google, Hyves, Amazon, LinkedIn en Facebook. Al deze bedrijven kiezen voor gedistribueerde file systemen voor de opslag van ongestructureerde data. Zo is de technologie voor Google zo belangrijk, dat ze hun eigen gedistribueerde file systeem hebben gebouw, het Google File Systeem (GFS).

GFS is een afkorting die voor veel zaken gebruikt kan worden, 
zo kunnen bedoeld worden:

Google File System
Gedistribueerd File Systeem
Global File System (Red Hat)

Simpel gesteld zijn gedistribueerde file systemen een verzameling computer systemen waarover heen een file systeem is gebouwd. Dit file systeem heeft een (instelbare) mate van redundantie zodat het feitelijk gebouwd is om kapot te kunnen gaan. Vaak is de mate van redundantie (replica count) per directory instelbaar. Een ander voordeel van een GFS is dat je er klein mee kan starten en dat het zich toch naar petabytes (en zelfs brontobytes) laat schalen. Bijkomend voordeel is dat door extra computersystemen toe te voegen zowel de capaciteit als ook de bandbreedte naar die capaciteit toeneemt. Dit komt omdat je ervan uit kan gaan dat alle lees- en schrijf bewerkingen over alle systemen (nodes) verdeeld mogen worden.
Een ander voordeel dat een GFS heeft is dat verschillende hardware door elkaar gebruikt kan worden. Dat betekent dat je als klant een ander type systeem kan gaan gebruiken of zelfs naar een andere leverancier (merk) kan overstappen.
Nog een voordeel van een GFS is dat deze software veelal (niet altijd) open source software betreft waarvoor geen licentiekosten betaald moeten worden of waarvan de subcsriptiekosten laag zijn. Mede hierdoor zijn GFS aanzienlijk goedkoper dan een SAN.

Een aantrekkelijke feature van GFS is Geo-replicatie. 
Ook de meeste SAN's bieden dit, maar afhankelijk van het 
specifieke GFS zijn daar erg veel mogelijkheden voor.

Welke GFS bestaan er?

Er bestaan een grote hoeveelheid verschillende GFS. Vaak zijn dergelijke file systemen gebouwd voor een specifieke toepassing (massa opslag, backup of storage t.b.v. grid computing). Het is daarom erg van belang goed te kijken welke het beste past bij de specifieke toepassing die je voor ogen hebt. Een aantal is buitengewoon interessant:

Conclusie

De schaalbaarheid en overige features van GFS maken ze zeer geschikt voor de opslag van grote hoeveelheden ongestructureerde data. Niet voor niets gebruiken grote internet bedrijven een GFS. Een algemene Total Cost of Ownership (TCO) berekening laat zien dat een GFS tot 10 keer goedkoper kan zijn dan een SAN oplossing. Natuurlijk zal een gespecificeerde TCO berekening moeten / kunnen aantonen dat het in het in een specifiek geval ook zo is.

Aanvulling op 27-02-2014

Ook wanneer er een kleinere opslag behoefte is kan Open Source Software interessant zijn. Onlangs heb ik geëxperimenteerd met FreeNAS en ben daarvan behoorlijk onder de indruk. Het is een FreeBSD gebaseerde distributie dat gebruik maakt van het ZFS filesystem. Daarnaast heeft het een web gebaseerde interface waarin alles is in te stellen van VLAN, tot interface bonding / teaming, ZFS volumes en directory intergratie. In de documentatie van FreeNAS wordt ook gesteld dat het beter niet op disk kan worden geïnstalleerd (hetgeen zonde van de diskruimte zou zijn) maar dat vanaf USB stick geboot moet worden (bij voorkeur). Overigens is FreeNAS geen gedistribueerd filesystem, maar kan een goede aanvulling zijn naast bestaande SAN’s en NAS oplossingen.