Re: Plantage de nuit

Pàgina inicial

Reply to this message
Autor: Frédéric
Data:  
A: guilde
Assumptes nous: Optimisation du raid (était Plantage de nuit)
Assumpte: Re: Plantage de nuit
Frédéric a écrit :

> Colle : qu'est-ce qui peut faire qu'un ordinateur plante toutes les
> nuits à peu près à la même heure (2h30 du mat) ? Je la retrouve
> complètement figée : plus rien à l'écran (il se met en veille), un ping
> de répond plus, la led du clavier bascule encore un coup ou deux si
> j'appuie sur la touche num-lock, puis plus rien (caps-lock, elle, ne
> bascule même pas une fois). Et rien dans les logs.
>
> Le cron.daily est programmé à 6h25, donc ce n'est pas ça...
>
> Est-ce qu'une trame réseau peut planter une machine si le pilote est
> foireux ? Bon, ceci-dit, je n'ai pas fait d'upgrade de kernel depuis
> très longtemps (c'est une debian testing).
>
> C'est peut-être le hard (la mémoire est OK), mais le plantage à heure
> fixe est quand même louche...
>
> Si vous avez des idées, je suis preneur.


Bonjour,

J'ai refait des tests hier soir avec mon programme (je rappelle que les
plantages n'intervenaient que lorsqu'il tournait), et ça n'a pas planté !

Par contre, j'ai eu droit à ceci :

-------------------------------------------------------

A Fail event had been detected on md device /dev/md3.

It could be related to component device /dev/hdb4.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] 
md3 : active raid1 hda4[0] hdb4[2](F)
      30186048 blocks [2/1] [U_]


md2 : active raid1 hda3[0] hdb3[1]
      2008000 blocks [2/2] [UU]


md1 : active raid1 hda2[0] hdb2[2](F)
      7004224 blocks [2/1] [U_]


unused devices: <none>

-------------------------------------------------------

et la même chose sur les autres partitions. Je rappelle que j'ai 2 disques
en raid complet (boot, /, swap...).

J'ai jeté un oeil à /var/log/messages :

Nov 21 02:25:56 in22 kernel: hda: lost interrupt
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: 0xe7
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hda: DMA disabled
Nov 21 02:25:56 in22 kernel: hdb: DMA disabled
Nov 21 02:25:56 in22 kernel: ide0: reset: success
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: ide0: reset: success
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: unknown
Nov 21 02:25:56 in22 kernel: end_request: I/O error, dev hdb, sector
16016573
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
Nov 21 02:25:56 in22 kernel: ide: failed opcode was: 0xe7
Nov 21 02:25:56 in22 kernel: ^IOperation continuing on 1 devices
Nov 21 02:25:56 in22 kernel: hdb: status error: status=0x00 { }
...

Et ça continue depuis. Bon, le disque hdb est naze, ou du moins ne répond
pas (hdparm ne le voit même plus). Mais remarquez un truc : ça a commencé à
2h25 ! Or, c'est toujours vers ces heures là que j'avais les plantages
(entre 2h et 3h, en gros).

J'ai regardé un truc dans la config de smartd :

...
# First (primary) ATA/IDE hard disk. Monitor all attributes, enable
# automatic online data collection, automatic Attribute autosave, and
# start a short self-test every day between 2-3am, and a long self test
# Saturdays between 3-4am.
#/dev/hda -a -o on -S on -s (S/../.././02|L/../../6/03)
/dev/hda -a -m mantegazza@??? -s (S/../.././02|L/../../7/03)
/dev/hdb -a -m mantegazza@??? -s (S/../.././04|L/../../7/05)
...

Mes disques sont donc testés tous les jours en test court : hda entre 2h et
3h (tiens-tiens ?), et hdb entre 4h et 5h. Se peut-il donc que ce soit le
test sur hda qui, à cause d'un soucis sur hdb depuis quelques temps,
plantait la machine ? Mais cela n'intervenait que si mon programme
tournait. Or ce programme fait des accès disque assez fréquents (mise à
jour de plusieurs fichiers de logs et de données toutes les 1/2 secondes
environ).

Le combinaison du raid, des accès disques, du test smart et d'un problème
sur hdb peut-elle être la cause de ces plantages ?

--
Frédéric

http://www.gbiloba.org