vMotion fails at 21% with error 195887371

How to troubleshoot vMotion issues

Troubleshooting vMotion issues is in most cases a matter of networking issues. I will demonstrate in this case how to trace down the problem and how to find possible culprits.

What’s the problem?

Initiating a host vMotion between esx1 and esx2 passes all pre-checks, but then fails at 21% progress.

Migrate virtual machine:Failed waiting for data. Error 195887371. The ESX hosts failed to connect over the VMotion network.

See the error stack for details on the cause of this problem.
Time: 07.01.2018 19:08:08
Target: WSUS
vCenter Server: vc
Error Stack
Migration [167797862:1515348488969364] failed to connect to remote host <192.168.45.246> from host <10.0.100.102>: Timeout.
vMotion migration [167797862:1515348488969364] vMotion migration [167797862:1515348488969364] stream thread failed to connect to the remote host <192.168.45.246>: The ESX hosts failed to connect over the VMotion network
The vMotion migrations failed because the ESX hosts were not able to connect over the vMotion network. Check the vMotion network settings and physical network configuration. 
Migration [167797862:1515348488969364] failed to connect to remote host <10.0.100.102> from host <192.168.45.246>: Timeout.
vMotion migration [167797862:1515348488969364] failed to create a connection with remote host <10.0.100.102>: The ESX hosts failed to connect over the VMotion network
Failed waiting for data. Error 195887371. The ESX hosts failed to connect over the VMotion network.

„vMotion fails at 21% with error 195887371“ weiterlesen

PBM error occurred during PreMigrateCheckCallback

Beim Versuch einen vMotion Vorgang durchzuführen, lieferte der vSphere-Client fogenden Fehler:

Ein allgemeiner Systemfehler ist aufgetreten: PBM error occurred during PreMigrateCheckCallback: Invalid response code: 503 Service unavailable.

Die Ursache wird in KB 2118551 beschrieben. Zur oben beschriebenen Fehlermeldung kommt es, wenn der Profile-Driven Storage service nicht verfügbar ist. Man kann dies mittels einer SSH Verbindung auf die Virtual-Center-Server-Appliance (VCSA) überprüfen. „PBM error occurred during PreMigrateCheckCallback“ weiterlesen

VM Kernel Troubleshooting

Ein Beispiel für gezielte Fehleranalyse.

vMotion funktioniert nicht mehr

Ohne erkennbaren Anlass funktionierte die Verschiebung von VMs zwischen zwei ESX Servern nicht mehr. Der Prozess brach immer nach 14% Fortschritt ab. Beide Server, sowie deren Gastsysteme waren erreichbar und liefen fehlerfrei. Der vMotion Datenverkehr wurde über ein eigenes VLAN und dedizierte vmnics (Multi NIC vMotion) geleitet. Die Tabelle unten gibt eine Zusammenfassung der Kernelport Konfiguration. „VM Kernel Troubleshooting“ weiterlesen

vMotion Problem durch USB Device

Beim Versuch, eine VM mit vMotion auf einen anderen Host zu verschieben, erhielt ich diese Fehlermeldung:

fault.cannotAccessVMDevicesummary

Gibt man diese Meldung in eine Suchmaschine der Wahl ein, so kommen (derzeit) keine hilfreichen Treffer. Also musste ich selbst nach der Ursache suchen. Alle VMs konnten vom Host migriert werden bis auf diese eine, welche den Fehler produzierte.

Bei der Inspektion des ESX-Servers fand ich ein USB Dongle. Das brachte mich auf die Spur. Jemand hatte ein USB Gerät über den Host in der VM verfügbar gemacht. Dieses verhinderte aber ein vMotion auf den anderen Host.

Nachdem ich das USB Gerät abgemeldet und entfernt hatte, gab es keine weiteren Probleme mit dieser VM.