High Availability clusters
Er bestaan op operating system niveau twee cluster architecturen: High performance clusters en High availability clusters. Dit artikel gaat over High availability clusters.
Zie hier voor High performance clusters.
High availability clusters zijn groepen aan elkaar gekoppelde computers die in geval van uitval elkaars taken kunnen overnemen (nodes in een cluster).
Cluster software
Om applicatie failover te realiseren is speciale cluster software nodig. De bekendste producten voor Operating systems zijn:
- Microsoft Cluster Services
- HP's Serviceguard (HP-UX en Linux)
- IBM's HACMP (AIX UNIX)
- Sun Cluster (Sun Solaris)
- Veritas Cluster Server
- OpenVMS clusterfunctionaliteit
Bovenstaande software is bedoeld om applicaties die op een node in het cluster draaien in korte tijd te laten "failoveren" op een andere node in het cluster.
Er wordt door deze software periodiek (bijvoorbeeld elke minuut) gecontroleerd of een applicatie nog goed werkt op een node. Indien dit niet het geval is, volgt een failover: de applicatie wordt gestopt op de originele node (als dit nog mogelijk is) en gestart op een andere node.
Er wordt gestreefd dat de eindgebruikers na een minimale onderbreking gewoon kunnen doorwerken.
Cluster-aware applicaties
Bovenstaande beschrijving gaat ervan uit dat de applicaties niet weten dat ze op een cluster draaien. Er bestaan echter ook cluster-aware applicaties.
Een voorbeeld hiervan is Oracle RAC (Real Application Cluster). Hierbij kan Oracle tegelijkertijd draaien op meerdere nodes van het cluster, en is de applicatie in staat zelf met uitval van een node om te gaan.
Bij uitval van een node in het cluster, is hooguit de performance van het geheel wat lager. maar de eindgebruikers merken er verder niets van.
Testen
Cruciaal voor het gebruik van High Availability Clusters is dat ze regelmatig getest moeten worden. Ik ben in de praktijk eens tegengekomen dat een 2-node HP-UX Serviceguard cluster ooit eens was ingericht door een leverancier en daarna nooit meer was getest! Iedereen was in de veronderstelling dat men met het cluster uitval van hardware kon opvangen. Toen echter enkele jaren later een node daadwerkelijk uitviel, bleek het cluster niet goed te kunnen failoveren. Er volgde een (aanzienlijke) downtime, die voorkomen had kunnen worden als het cluster tenminste twee maal per jaar was getest.
This entry was posted on Donderdag 05 April 2007