Vérificateur d’uptime

Sonde une URL plusieurs fois, choisis ce qui compte comme disponible, lis le taux de réussite et la latence, puis dimensionne le budget d’indisponibilité.

Ce vérificateur d’uptime tape une URL publique plusieurs fois d’affilée et te laisse décider ce qui compte comme disponible pour le run, que ça veuille dire des réponses 2xx propres uniquement, les redirections autorisées, ou tout ce qui n’est pas une erreur serveur. Notre backend lance les vérifications répétées côté serveur et chronomètre chaque réponse, donc tu obtiens le taux de réussite observé, l’ensemble des statuts, la latence moyenne, la plus rapide et la plus lente, et l’écart entre elles en une seule passe. Il convertit ensuite un objectif de disponibilité en budget d’indisponibilité clair par jour, semaine et mois, parce que 99,9 pour cent ne devient concret qu’une fois converti en temps. Lance-le juste après un déploiement, une migration d’hébergement, une modification DNS ou un changement de plugin pour calibrer un point d’entrée, puis laisse la surveillance permanente à un vrai monitor planifié pour tout ce qui compte vraiment.

Les requêtes passent par le service de lookup PeopleAreGeek. Nous ne journalisons rien.

Vérification à la demande de la disponibilité et du budget d’uptime

On tape une URL publique plusieurs fois d’affilée. C’est toi qui décides ce qui compte comme disponible pour ce run. Ensuite tu lis le taux de réussite, tu regardes si la latence reste stable, et tu mets tout ça en face d’un objectif d’uptime et de son budget d’indisponibilité. Vois ça comme l’échauffement avant de te lancer dans du vrai monitoring planifié.

URL à sonder

Vérifications

Résultat disponible

Objectif de disponibilité

But de la sonde

Cette page récupère un instantané live depuis le backend de PeopleAreGeek. Un vrai monitor d’uptime va plus loin : un planning, des vérifications depuis plusieurs régions, des alertes qui arrivent à la bonne personne, et un historique que tu peux remonter.

Ce que mesure ce vérificateur d’uptime

On parle de l’uptime comme si c’était un seul chiffre. Dans les faits, ça commence par un journal des runs. Est-ce que l’URL a continué de répondre ? Quels statuts HTTP sont remontés ? Et est-ce que les vérifications ont été rapides de façon fiable, ou est-ce qu’une seule sonde a traîné pendant que les autres allaient bien ? Cette première passe, c’est exactement ce que fait cet outil. Il échantillonne une URL une poignée de fois, rassemble les résultats, et te laisse choisir la règle : n’accepter que des réponses 2xx propres, laisser passer les redirections, ou compter comme une réponse tout ce qui n’est pas une erreur serveur.

La règle que tu choisis change vraiment l’histoire. Une page d’accueil qui s’est discrètement transformée en 404 n’est disponible d’aucune manière qui t’aide, même si techniquement un serveur web a répondu. Un point de santé d’API peut exiger un 200 strict. Une sonde en pleine migration peut légitimement compter une redirection volontaire pendant que les règles de redirection se vérifient ailleurs. L’outil garde ce choix affiché à l’écran, comme ça le pourcentage n’est pas un mystère à reconstituer à l’envers.

Les vérifications manuelles et le vrai monitoring sont deux métiers différents

Un test à la demande gagne sa place juste après que tu as touché à quelque chose : un déploiement, une migration d’hébergement, un changement de plugin, une nouvelle règle de pare feu, une modification DNS, ou un email de support un peu vague qui te rend nerveux. Il te donne des preuves tout de suite. Le monitoring planifié, c’est autre chose complètement : des preuves dans la durée. Il attrape les pannes pendant que personne ne regarde la page, garde l’historique des incidents, prévient la bonne personne, et te laisse comparer les régions. Franchement, j’utiliserais cette page pour diagnostiquer et calibrer, et je laisserais la surveillance permanente à un vrai monitor pour tout ce qui compte vraiment.

Comment lire le taux de réussite et la latence ensemble

Un taux de réussite parfait avec une latence qui saute partout ? Ça vaut quand même le coup d’œil. Des premières réponses lentes sont souvent le premier indice d’un truc qui se prépare en dessous : de la mise en file d’attente, des workers PHP saturés, de la pression sur la base de données, des défauts de cache, un amont qui passe une mauvaise journée. Une seule valeur lente isolée ne prouve rien, c’est clair. Mais un grand écart à l’intérieur d’un run court, c’est le genre de chose que je sauvegarderais dans le rapport pour y revenir plus tard, au cas où ce serait un motif et pas juste du bruit.

Le taux de réussite te dit combien de runs ont passé la règle que tu as choisie.
L’ensemble des statuts montre si le point d’entrée est resté cohérent ou s’il est parti à droite à gauche.
La moyenne, le plus rapide et le plus lent esquissent une enveloppe de latence grossière.
L’écart, c’est juste de combien le run le plus lent s’est éloigné du plus rapide.
Le journal des runs garde chaque statut et chaque mesure de temps bien en vue, plutôt que d’enterrer les preuves sous un score unique.

Objectif d’uptime et budget d’indisponibilité

Un objectif ne devient concret qu’une fois que tu le convertis en temps. 99,9 pour cent te laisse un budget mensuel bien plus serré que 99 pour cent tout court. Et un chiffre plus strict n’est pas qu’un chiffre, il lui faut des habitudes derrière : du monitoring, quelqu’un qui possède vraiment les alertes, de la maintenance que tu as planifiée au lieu de subir, des revues d’incidents, des dépendances qui tombent sans tout emporter avec elles. Le tableau ici est une aide à la planification, rien de plus. Huit bonnes vérifications ne se transforment pas par magie en SLA mensuel.

Pour un petit site WordPress, ce qu’il faut en retenir est assez simple. Tes pages importantes devraient répondre de façon fiable après les opérations de routine que tu leur fais subir. Tu trouves des échecs dans un run ? Répare le statut et la disponibilité avant tout le reste. Si le run est disponible mais lent ou instable, va d’abord fouiller du côté du cache, de la charge serveur, des plugins lourds, des redirections et des appels tiers, bien avant de promettre un objectif d’uptime que ton installation ne peut pas réellement tenir.

Une routine de dépannage d’uptime utile

Sonde l’URL publique exacte que tes utilisateurs ou tes intégrations tapent vraiment, pas une approximation.
Choisis la règle de réponse qui colle au rôle de cette URL, et garde-la stricte.
Accroche-toi au journal des runs dès que le statut bouge ou que l’écart de latence explose.
Quand l’échec n’est pas évident, va vérifier le statut du site, les redirections, le SSL et les en-têtes.
Ajoute du monitoring planifié partout où une panne ratée te coûterait vraiment quelque chose.

Questions fréquentes

Est-ce que c’est la même chose qu’un status checker ?

Non. Le status checker parcourt un seul chemin de réponse en détail. Celui-ci s’intéresse plutôt aux échantillons de disponibilité répétés, à la règle que tu choisis, et au contexte de budget d’indisponibilité.

Est-ce que les redirections devraient compter comme de la disponibilité ?

Seulement si c’est le but de la sonde. Pour une page publique canonique, teste directement l’URL finale et saute le saut. Pour une vieille URL en pleine migration, une redirection volontaire est peut-être exactement le comportement que tu voulais.

Est-ce que ça peut prouver un SLA de 99,9 pour cent ?

Non, et ça ne prétend pas le faire. Un test manuel rapide ne peut pas remplacer des mesures planifiées sur toute la période de reporting. Ce qu’il peut faire, c’est te dire si le point d’entrée a l’air en bonne santé à l’instant T.

Qu’est-ce que 99,9 pour cent de disponibilité autorise réellement ?

Environ quarante trois minutes d’indisponibilité par mois, disons huit virgule sept heures par an. Pousse à 99,99 pour cent et tu tombes à à peu près quatre minutes par mois. Chaque neuf supplémentaire coûte bien plus cher que le précédent, en argent comme en effort.

À quelle fréquence devrais-je sonder la disponibilité ?

Quelque part entre une et cinq minutes, ça tombe en général dans le bon créneau. Assez souvent pour attraper une courte panne, pas au point de marteler le serveur ou de déclencher ses limites de débit.