Votre serveur principal tombe un vendredi à 17 h. Vous l'apprenez le lundi matin quand les premiers utilisateurs appellent. Pendant 60 heures, vos services étaient inaccessibles — et personne ne le savait. Ce scénario est courant dans les PME qui n'ont pas de supervision d'infrastructure. Et pourtant, les outils pour l'éviter existent, sont gratuits et s'installent en quelques heures.
Ce que la supervision IT change concrètement pour une PME
La supervision (ou monitoring) d'infrastructure consiste à collecter, analyser et alerter sur les métriques de vos équipements : serveurs, réseau, stockage, services applicatifs. Concrètement, cela signifie :
• Recevoir une alerte avant que le disque dur soit plein (pas après)
• Savoir que le serveur de messagerie est lent avant que les utilisateurs se plaignent
• Identifier qu'une sauvegarde a échoué la nuit même, pas deux semaines plus tard
• Disposer de graphiques historiques pour repérer les tendances (mémoire qui monte, bande passante saturée aux heures de pointe)
La différence entre une PME qui supervise et une PME qui ne supervise pas : la première anticipe les pannes, la seconde les subit.
Quatre solutions open source à comparer
Le marché des outils de supervision open source est mature. Quatre solutions dominent, chacune avec une philosophie et un public différents.
| Outil | Philosophie | Points forts | Points faibles | Profil PME idéal |
|---|---|---|---|---|
| Zabbix | Tout-en-un, interface web intégrée | Découverte automatique, templates réseau riches, alertes granulaires, support SNMP natif | Interface datée, courbe d'apprentissage initiale, lourd pour de petits parcs | PME avec 20+ équipements réseau, switches, firewall, NAS |
| Prometheus + Grafana | Métriques time-series, écosystème cloud-native | Requêtes PromQL puissantes, dashboards Grafana magnifiques, standard Kubernetes | Pas de découverte auto, nécessite des exporters pour chaque service, pas d'interface d'administration centralisée | PME avec infrastructure conteneurisée ou cloud |
| Checkmk (Raw) | Héritage Nagios modernisé, interface propre | Installation simple, agents performants, bonne documentation, mode SaaS possible | Édition Raw limitée en automatisation, pas de visualisation avancée sans plugin | PME qui veut démarrer vite sans expertise DevOps |
| Uptime Kuma | Monitoring de disponibilité simple et léger | Installation en 2 minutes (Docker), interface moderne, notifications multi-canal | Pas de métriques système, pas de supervision réseau profonde | PME qui veut surveiller la disponibilité de ses sites et services web uniquement |
À retenir : Pour une PME de 10 à 100 postes avec un parc physique (serveurs, switches, NAS), Zabbix est le choix le plus complet. Pour une PME orientée cloud avec des conteneurs, Prometheus + Grafana est le standard. Pour démarrer en 30 minutes avec un besoin simple, Uptime Kuma suffit.
Architecture type pour une PME de 20 à 100 postes
Quelle que soit la solution retenue, l'architecture de supervision suit le même schéma :
1. Serveur de supervision — Une machine dédiée (physique ou VM) qui héberge l'outil. Pour Zabbix ou Checkmk, prévoir 2 vCPU, 4 Go de RAM et 50 Go de stockage. Pour Prometheus, les besoins en stockage dépendent de la rétention (15 jours par défaut).
2. Agents ou exporters — Installés sur chaque machine supervisée, ils collectent les métriques (CPU, RAM, disque, réseau, services) et les transmettent au serveur. Zabbix utilise son propre agent, Prometheus utilise des « exporters » (node_exporter pour Linux, windows_exporter pour Windows).
3. Canaux d'alerte — Email, SMS, Slack, Microsoft Teams, WhatsApp. L'alerte doit arriver à la bonne personne au bon moment. Configurez des escalades : si le technicien de niveau 1 ne réagit pas en 15 minutes, l'alerte monte au niveau 2.
4. Tableaux de bord — Écran mural (TV dans le bureau IT) ou dashboard web accessible à distance. Les métriques clés en temps réel : disponibilité des services, charge CPU, espace disque résiduel, latence réseau.
L'ANSSI recommande de séparer le réseau de supervision du réseau de production lorsque c'est possible, conformément à ses recommandations pour l'administration sécurisée des SI.
Cinq métriques à surveiller en priorité
Tout superviser revient à ne rien superviser. Commencez par les cinq métriques qui génèrent 80 % des pannes dans une PME :
• Espace disque : alerter à 80 % d'utilisation, escalader à 90 %. Un disque plein provoque des arrêts applicatifs, des corruptions de base de données et des échecs de sauvegarde — en silence
• Charge CPU moyenne : une charge constante au-dessus de 80 % sur 30 minutes indique un processus en emballement ou un dimensionnement insuffisant
• Mémoire disponible : alerter quand il reste moins de 10 % de RAM libre. Le swap excessif ralentit tout le système
• Disponibilité des services critiques : vérifier toutes les 60 secondes que les ports des services essentiels (messagerie, ERP, base de données, site web) répondent
• Statut des sauvegardes : vérifier que la dernière sauvegarde a réussi et que sa taille est cohérente (une sauvegarde de 0 octets est un faux succès)
Les solutions de supervision et monitoring permettent de configurer ces seuils et de les adapter à chaque équipement.
Mise en œuvre : de l'installation à la première alerte
Prenons l'exemple de Zabbix, le plus complet pour un parc physique de PME.
Jour 1 — Installation du serveur. Sur une VM Debian ou Ubuntu, l'installation de Zabbix Server + Frontend prend environ 45 minutes via les paquets officiels. La base de données (PostgreSQL ou MySQL) est créée automatiquement.
Jour 1 — Ajout des premiers hôtes. Installez l'agent Zabbix sur 2-3 machines critiques (serveur principal, NAS, firewall). La découverte automatique de Zabbix détectera ensuite les autres équipements du réseau via SNMP ou agent.
Jour 2 — Configuration des alertes. Associez un canal de notification (email, Slack) et définissez les seuils sur les 5 métriques prioritaires. Testez en simulant un disque plein ou un service arrêté.
Jour 3 — Dashboards. Créez un tableau de bord synthétique avec les indicateurs clés. Affichez-le sur un écran dans le bureau IT ou partagez-le en lecture seule avec la direction.
Semaine 2 — Ajustement. Affinez les seuils pour éliminer les faux positifs (alertes qui se déclenchent sans raison). C'est la phase la plus importante : une supervision qui génère trop de fausses alertes finit par être ignorée.
Questions fréquentes sur la supervision IT en PME
Faut-il un serveur dédié pour la supervision ?
Idéalement oui. Si le serveur de supervision tourne sur le même serveur que les services supervisés, il tombera en même temps — ce qui est précisément le scénario que vous cherchez à éviter. Une petite VM dédiée (2 vCPU, 4 Go) suffit pour superviser jusqu'à 200 équipements.
La supervision consomme-t-elle beaucoup de bande passante ?
Non. Les agents transmettent des métriques textuelles de quelques kilo-octets toutes les 60 secondes. Sur un parc de 50 machines, le trafic de supervision représente moins de 1 Mbit/s constant — négligeable sur n'importe quel réseau d'entreprise.
Prometheus ou Zabbix pour une PME ?
Si votre infrastructure est principalement physique (serveurs, NAS, switches, postes), Zabbix est plus adapté : il gère nativement SNMP, la découverte réseau et les agents Windows/Linux. Si vous êtes sur du cloud et des conteneurs, Prometheus est le standard de fait — mais il nécessite une connaissance DevOps que beaucoup de PME n'ont pas en interne. L'article Supervision monitoring : comment éviter les pannes en PME détaille les critères de choix.
Superviser, c'est décider avec des données
La supervision d'infrastructure n'est pas un projet technique réservé aux grandes entreprises. Avec des outils open source matures et une installation en quelques heures, une PME peut passer d'une gestion réactive (on répare quand ça casse) à une gestion proactive (on anticipe avant que ça casse). Le retour sur investissement est immédiat : moins de pannes, moins de temps perdu, et surtout, la capacité de prendre des décisions d'investissement IT basées sur des données réelles plutôt que sur des impressions.
Image : © Bing Images, 2026