著者: Yves Perrey 日付: To: guilde 題目: Re: instabilite de linux SMP ?
Dinh-Tuan.Pham@??? wrote: >
>
> > * enfin, test du biproc en allégeant les contraintes bios (notamment pour
> > les caches) puis en configuration normal. J'ai déjà vu un processeur
> > planté sous linux avec un cache mal configuré. C'est idiot mais pas
> > forcément évident à trouver.
> >
> > J'avais fait un petit programme pour itérer la compil du noyau linux un
> > certain nombre de fois et rechercher si un petit signal 11 ne s'tait pas
> > glissé dedans. Si cela t'intéresse, je te l'envoie...
>
> > PS1: bien s'assurer que des trucs idiots fonctionnent, comme les
> > ventilateurs des cpu sinon c'est la panne assurée dans un temps
> > variable...
> >
> > PS2: as-tu essayé le SMP en 2.0.x ? Cela donne-t-il la même chose ?
>
> Merci pour les sugestions. Mais ces choses la demandent beaucoup de
> temps. Ce programme de calcul esst deja tres lourdes et la machine a
> tenu le coup pendant quelaue jours. Mais peut etre parce que je n'ai
> pas encore utiliser tous la memoire (top indique que toute la ram est
> utilise mais j'imagine qu'une grande partie est pour les caches). Je
> vais maintenant lancer plusieurs programmes en meme temps.
>
> A propos du signal, j'ai effectivement vu une fois le message "check
> signal" apres que j'ai tente de le demarer avec le bouton reset (ou
> alimentation). Mais comment savoir si c'est le signal 11: la panne
> survient quand je suis absent et l'ecran s'eteint au bout d'un
> moment. J'ai donc un ecran noir avec une machine qui ne repond a rien !
>
> Le ventillateur fonctionne au moment de panne. Mais curieusement, il
> m'arrive que la machine ne redemare pas tout de suite (avec le message
> check signal). Il finit par demarer apres un certain temps, comme
> s'il a besoin de refroidir.
Il y a une clim dans la piece ou la machine est installee ?
Peux-tu eventuellement baisser dans le BIOS les valeurs des parametres
de temperature qui peuvent provoquer un arret du systeme ou lancer plus
tot une acceleration du debit des ventilo, s'il y a lieu ?
Je ne sais pas si sous Linux il existe des demons du type de ceux qui
gerent les onduleurs pour arreter proprement la machine si il y a
surchauffe.
Ca permettrait d'avoir une trace d'un arret sur surchauffe quelquepart a
defaut d'etre efficace pour le boulot a effectuer...
> J'ai essaye 2.0.38 mais je dois l'abandonner car il cause de gros
> probleme avec notre serveur NSF su Sun (et ce n'est pas lie au SMP).
> Mais il est possible queles noyaux 2.2.x ont de problemes (et pour
> cette raison que j'ai envoye ce message pour savoir d'autre personne
> ont eu le meme problemes). J'ai entendu parler de "massive kernel
> memory leak in certain networking situations" pour le 2.2.11 et
> egalement "an unpleasant kernel memory leak bug" dans 2.2.12".
> J'allais essaye de compiler 2.2.10.
Je suis avec un bi-celeron 400 et un kernel 2.2.12.
J'ai un recul sur un maximum d'environ 17 heures d'utilisation
quotidienne sans probleme, ce qui fait peu pour declarer que c'est
stable.
Les seules fois ou j'ai eu des problemes de signal 11 et en tout et pour
tout un seul crash complet sur le SCSI qui avait perdu pied, ca a ete
avec gcc lors de recompilation du noyau et une modification des
parametres du BIOS par defaut. Mais la, c'est de ma faute, j'avais
pousse le bouchon overclock un peu loin (522 Mhz...) et le controleur
SCSI sur bus PCI n'a pas du aimer la haute frequence du bus et le reste
a l'avenant...
Avec les parametres BIOS par defaut et 400Mhz, ca va impeccable jusque
la pour l'utilisation que j'en fais, ca va moins vite mais plus
longtemps :)
Cote refroidissement, il y a un ventilateur sur chaque CPU qui tourne
constamment a la meme vitesse, pas monitore par le BIOS de la machine.
J'envisage de mettre de la pate siliconee qu'on met entre les boitiers
TO3 de transistor de puissance et les radiateurs pour qu le contact
thermique s'effectue au mieux.
Cote alimentation electrique, j'ai un boitier de m****, comme ceux qu'on
trouve courrament partout je dirais, avec une alim 230 ou 250W.
Quand je lance une compilation du kernel (avec make -j3 donc les 2 CPU
sont charges), j'entends un changement de bruit dans les ventilateurs.
Donc ca pompe (combien ?) et pour faire suite a l'intervention decrivant
les clignotements de la LED d'alim quand elle defaille, je n'ai rien vu
de tel.
J'avais auparavant un PII400 dans le meme boitier, meme configuration
materielle par ailleurs excepte la carte mere. Je n'ai jamais remarque
ca.
Je suis pret a faire tourner la machine en charge 24h/24 autant de jours
qu'il faudra, pour voir.
Si quelqu'un peu me passer des softs qui peuvent la charger quand je ne
suis pas devant a avoir besoin de m'en servir, sans trop acceder aux
disques histoire de ne pas tout casser, a votre bon coeur :)