Re: Problème sur un serveur

Top Page

Reply to this message
Author: Olivier Allard-Jacquin
Date:  
To: Guilde Mailing list
Subject: Re: Problème sur un serveur
Hello Fréderic,

Le 31/05/2022 à 12:32, Frédéric a écrit :
> Hello,
>
> Notre serveur au taf répond très très lentement, surtout sur les accès
> disques, j'ai l'impression.
>
> Je n'ai rien vu de bizarre, si ce n'est 2 choses:
>
> 1) le load average est de 5, mais le CPU n'est aucunement sollicité ;


     Un load average de 5, cela veut dire qu'il y a en permanence au 
moins 5 process qui attendent dans la queue des CPU:


- si tu as un seul core/CPU, cela veut que ta machine est pas mal sollicité

- si tu as 12 coeurs/CPU, cela veut dire qu'en moyenne 7 CPU ne font
rien, et que ta machine peu supporté sans problème un load average de 12

     Par contre, si effectivement tu as peu de process qui utilisent du 
CPU, mais que tu as un load average de 5, cela veut probablement dire 
que tu as beaucoup de "wait". Et ça, c'est un problème hardware. Le 
"wait" t'est donné par "top" (voir le "wa")


top - 22:36:27 up 1:25, 3 users, load average: 0,26, 0,53, 0,81
Tâches: 170 total, 1 en cours, 169 en veille, 0 arrêté, 0 zombie
%Cpu(s): 25,2 ut, 3,6 sy, 0,0 ni, 71,1 id, 0,0 wa, 0,0 hi, 0,0 si,
0,0 st



> 2) je vois ceci dans les logs :
>
> [ 3268.306990] perf: interrupt took too long (2519 > 2500), lowering

kernel.perf_event_max_sample_rate to 79250
> [ 3470.320357] perf: interrupt took too long (3156 > 3148), lowering

kernel.perf_event_max_sample_rate to 63250
> [ 4521.107229] perf: interrupt took too long (3958 > 3945), lowering

kernel.perf_event_max_sample_rate to 50500
> [ 8910.148780] perf: interrupt took too long (4962 > 4947), lowering

kernel.perf_event_max_sample_rate to 40250
> [16775.919290] perf: interrupt took too long (6204 > 6202), lowering

kernel.perf_event_max_sample_rate to 32000
> [38952.135037] perf: interrupt took too long (7757 > 7755), lowering

kernel.perf_event_max_sample_rate to 25750
> [566459.574115] perf: interrupt took too long (9698 > 9696), lowering

kernel.perf_event_max_sample_rate to 20500

     En regardant les timestamp des évènements, ont voit qu'il s'est 
passé 6 jours entre les deux derniers évènement. Donc, cela n'a pas 
d'importance.



> Une idée de ce qui peut se passer ? Un souci matériel ?
>
> un coup de smartctl ne montre rien non plus d'anormal (le disque

n'est pas
> très vieux).
>
> Merci de vos lumières.


     De ce que tu dis, je vois plusieurs possibilités:


- la machine est configurée avec un DNS qui n'est pas accessible (voir
/etc/resolv.conf), ou on lui demande d'accéder à un machine qui n'est
pas accessible. Donc il convient de voir si la machine peut bien accéder
à son DNS

- la machine est configuré pour avoir plusieurs gateway, et au moins une
ne marche pas, ou alors les gateway vont dans des réseaux qui ne sont
pas communs. Un "route -n" permet de voir cela

- une carte réseau est plus ou moins défectueuse. Tu peux utiliser "nc"
en mode client et serveur entre la machine et ton laptop
https://doc.fedora-fr.org/wiki/Netcat,_connexion_client/serveur_en_bash
. Exemple;

Sur le serveur:

     nc -l 2020 > /dev/null


Sur ton laptop

     nc ip_serveur 2020 < /dev/zero


Et tu surveilles la bande passante réseau. par exemple, sur le laptop tu
lances un "gkrellm" ou un "iftop"

Puis tu inverses machines serveur et client

- enfin, si le serveur est lui-même dépendant d'un autre serveur NFS
(par exemple), cela peut expliquer des ralentissements. Perso, j'aime
bien NFS pour ses perfs, mais par contre si le serveur NFS se
déconnecte, cela a tendance à pourrir complètement les perfs du client
NFS. Typiquement, si les commandes "df" et "mount" mettent du temps à
s'afficher, c'est probablement un problème de NFS. Ou d'une clé USB / un
DVD/CDROM à problème

- tu dis que c'est un serveur, donc il y a probablement une carte RAID.
Regardes si il n'y a pas de mise à jour de son BIOS à appliquer. De
même, regarde si il n'y a pas de mise à jour du BIOS de la carte mère du
serveur

        Enfin, le "reboot magique" peut avoir un effet profitable.



     Cordialement,



                          Olivier


-- 
~~~~~~~  _____/\_____  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Phoenix /   _ \/ _   \    Olivier Allard-Jacquin
        /   / \  / \   \   Web:  http://olivieraj.free.fr/
       /___/  /  \  \___\  Mail: olivieraj@???
~~~~ /////  ///\\\  \\\\\ ~~~~~~~~~~~~~~~~~~~~~~~ Linux Powered !!