Question 1

Qu'est-ce qui provoque un écran violet (PSOD) sur VMware ESXi ?

Accepted Answer

Presque toujours un pilote défectueux ou mal assorti. Le matériel qui lâche en provoque aussi, de la barrette mémoire qui agonise à la carte PCIe qui devient instable, tout comme l'épuisement du heap de stockage. Ce que ce n'est généralement pas, c'est ESXi lui-même. Lisez d'abord l'exception affichée à l'écran : une #PF Exception 14 pointe vers un pilote, un LINT1 ou NMI pointe vers le matériel. Mettez en place une cible de coredump, puis mettez à jour le pilote et le firmware incriminés, en les vérifiant contre la VMware HCL.

Question 2

Comment réparer un hôte ESXi qui apparaît Not Responding dans vCenter ?

Accepted Answer

Commencez par redémarrer les agents de gestion depuis le shell de l'hôte : /etc/init.d/hostd restart et /etc/init.d/vpxa restart. Ensuite, assurez-vous que le réseau de management est bien up et que vCenter peut joindre l'hôte sur les ports 902 et 443. Faites maintenant un clic droit sur l'hôte et choisissez Reconnect. Si les agents refusent carrément de démarrer, le coupable habituel, c'est l'espace disque sur le scratch de l'hôte, donc vérifiez ça et le hostd.log.

Question 3

Quelle est la différence entre APD et PDL ?

Accepted Answer

L'APD (All Paths Down) est temporaire. Le périphérique pourrait revenir, donc ESXi se contente de réessayer en espérant. Le PDL (Permanent Device Loss), c'est la baie qui vous dit franchement, via les codes de sense SCSI, que le périphérique est parti pour de bon. Et les correctifs ne se recouvrent pas non plus. L'APD est une histoire de fabric ou de baie que vous ramenez en ligne. Le PDL veut dire que vous retirez le périphérique mort, puis que vous remédiez les datastores et les VM qu'il a emportés avec lui.

Question 4

Comment démarrer une VM qui dit que le fichier est verrouillé ?

Accepted Answer

Autre chose tient un verrou sur le VMDK ou le .vmx, soit un autre hôte, soit un processus zombie qui n'a jamais lâché. Lancez vmkfstools -D sur le fichier verrouillé et lisez l'adresse MAC dans la sortie, ça vous dit quel hôte le possède. Assurez-vous que la VM ne tourne vraiment pas là-bas. Ensuite, levez le verrou bloqué en redémarrant les agents de gestion sur l'hôte qui le détient, ou redémarrez cet hôte s'il le faut. Une règle quand même : ne supprimez jamais les fichiers .lck juste parce que vous êtes pressé.

Question 5

Pourquoi je n'arrive pas à supprimer ou consolider un snapshot ?

Accepted Answer

En général l'une de deux choses. Soit le datastore n'a pas assez d'espace libre pour la fusion, soit un job de sauvegarde garde encore un handle ouvert sur le delta disk. Donc libérez de l'espace, au minimum la taille de toute la chaîne de delta, tuez toute sauvegarde qui touche à la VM, puis lancez Snapshot Consolidate. Si ça reste coincé, le vmware.log dans le dossier de la VM nomme le fichier exact sur lequel la fusion s'étrangle.

Référence des codes d'erreur VMware ESXi

Comment utiliser cette référence des erreurs VMware ESXi

Les logs et commandes qui résolvent la plupart des soucis VMware

PSOD, APD et PDL : les familles qui piègent les gens

Confidentialité et fonctionnement de l'outil

Questions fréquentes