HA dynamische Admission Control – Bug oder Feature?

Admission Control ist Teil der vSphere High Availability (HA) Funktion. Sie stellt sicher, dass im Falle eines Hostfehlers genügend Reserve-Ressourcen für den VM Neustart im Cluster verfügbar sind. Admission Control verhindert den Start von VMs, wenn dadurch diese Reserve überschritten würde.

Seit Version 6.5 gibt es eine dynamische Berechnung der notwendigen Ressourcen, abhängig von der gewünschten Zahl an Hostfehlern, die toleriert werden sollen.

Beginnen wir mit einem Beispiel: Ein Cluster mit zwei gleichen Hosts, der einen Hostausfall tolerieren sollte. Admission Control wird sicherstellen, daß weder CPU, noch RAM zu mehr als 50% belegt werden. Sollte ein Host ausfallen, wird der verbleibende Host genügend Ressourcen haben, um die VMs des ausgefallen Hosts neu zu starten.

Stellen wir uns nun vor, dass wir diesem Cluster zwei weitere Hosts hinzufügen. Die Anzahl der möglichen Host Ausfälle ist weiterhin 1. Jetzt tritt jedoch die dynamische Berechnung in Kraft. Admission Control wird nun eine Ressourcen Auslastung von bis zu 75% erlauben, bevor der Start weiterer VMs unterbunden wird.

Daas ist großartig. Denn nun muss man nur einmalig die Zahl der möglichen Hostfehler definieren und HA Admission Control übernimmt die dynamische Berechnung der nutzbaren Cluster Ressourcen. Das funktioniert sowohl für das Hinzufügen, als auch für das Entfernen von Hosts.

„HA dynamische Admission Control – Bug oder Feature?“ weiterlesen

ESX physische Uplinks gegen Pfadausfall sichern

vmnic Redundanz mit Link State Tracking / Smartlinks absichern

Ein vSphere Cluster sollte in jeder Hinsicht redundant ausgelegt sein. D.h. der Ausfall einer Komponente darf nicht zum Funktionsverlust führen. Wir bilden RAID Sets aus mehreren Disks, steuern Storage Einheiten über mehrere Controller, haben mehrere Pfade zur Storage, redundante LAN- und SAN-Switches und mehrere Uplinks pro Host ins physische Netzwerk.

VMware vSphere verwendet mehrere physische Uplinks, um daraus einen logischen NIC zu erstellen. Somit wird Redundanz gewährleistet. Besonders für Kenelports ist Redundanz besonders wichtig. Über diese wird das Management Network, vMotion, FT, iSCSI und Heartbeats abgewickelt.

Es gibt aber Szenarien, bei denen alle NICs eines ESX physischen Link haben und dennoch ein Pfadausfall auf dem Weg zum Core-Switch dazu führt, daß Pakete ins Nirvana gesendet werden.

Wir werden im folgenden Teil mehrere Architekturen anschauen und Methoden zeigen, um dies zu verhindern. „ESX physische Uplinks gegen Pfadausfall sichern“ weiterlesen

vSphere HA Features in der Zukunft: Restart Order

Auf der Seite Yellow-Bricks ist eine interessante Diskussion über ein mögliches neues Feature des HA Clusters entstanden. Duncan Epping von Yellow-Bricks ist selbst VMware Mitarbeiter. Er und einige seiner Kollegen diskutieren im Kommentarbereich mit Anwendern über eine mögliche neue Funktion und deren Gestaltung.

  • Definition von Abhängigkeiten (Ketten) zwischen VMs
  • Definition von Restart-Gruppen
  • Clusterweite Shutdown und Restart Richtlinien

Die Diskussion ist offen und jeder kann Anregungen zum Thema einbringen.

HA failover und STP

Eine Verfahrensweise, die ich mir bei Wartungen an ESX Clustern zu eigen gemacht habe, ist HA zu deaktivieren. Insbesondere dann, wenn es sich um Wartungen an der Netzinfrastruktur handelt. Warum eigentlich? HA ist inzwischen ein robuster Dienst und die Netzinfrastruktur sollte ohnehin redundant ausgelegt sein. Die Erfahrung zeigte allerdings, dass trotz aller Redundanz, Arbeiten an der Netzinfrastruktur immer wieder zu unerwünschten Failover Aktionen des HA führten. Dabei versucht z.B. ein Host (vergeblich), die laufenden VMs eines anderen zu starten. „HA failover und STP“ weiterlesen