Page 1 sur 1

[kernel-2.6.19] Freeze puis système ne boot plus

Publié : lun. 15 janv. 2007, 00:45
par kozaki
Dans le genre freeze pata mais en pire

Mon arch64 a freezé ce endredi, & j'ai rebooté... pour découvrir que le système ne démarre plus. Une *1/2 seconde* après Grub voilà là où ça bloque : Image
Pareil avec des paramètres type 'break=y' ou 'noapi' & 'nolapic', et pas très différent avec le kernel-fallback : Image

C'est une install toute neuve avec Arch64 0.8 (l'iso du 2006-12-19). /boot est sur une partition séparée (ext2), le reste sur raid + lvm2 (ext3 & ext2).

L'unique problème visible depuis 10 jours avait été un freeze avec l'écran tout rayé (!).

À partir d'un LiveCD j'ai fsck tous les FS (qlq-uns affichent "HAS BEEN MODIFIED", tous sont parfaitement lisibles après activation du raid et lvm2.
J'ai pu récupérer la totalité des logs ; voici celui de pacman et de kernel :
pacman.log
[01/10/07 15:25] installed hwd (4.8.2-2)
[01/11/07 10:43] upgraded gtk2 (2.10.7-1 -> 2.10.6-2)
[01/11/07 10:43] upgraded xorg-server (1.1.1-5 -> 1.1.1-6)
[01/12/07 03:24] upgraded klibc-udev (103-3 -> 104-1)
[01/12/07 03:24] upgraded udev (103-2 -> 104-1)
[01/12/07 14:03] upgraded kernel26 (2.6.19.1-1 -> 2.6.19.2-1)
[01/12/07 14:04] upgraded qt (3.3.6-5 -> 3.3.7-1)
[01/12/07 20:44] upgraded cdrkit (1.1.1-1 -> 1.1.1-2)
[01/12/07 20:44] upgraded openoffice-spell-fr (20050609-2 -> 20050609-3)
kernel.log : 1ères alertes mercredi 10 (voyez le dm_mod:dm_table ?)
Jan 10 10:59:06 llewellyn fluxbox invoked oom-killer: gfp_mask=0x201d2, order=0, oomkilladj=0
Jan 10 10:59:06 llewellyn
Jan 10 10:59:06 llewellyn Call Trace:
Jan 10 10:59:06 llewellyn [<ffffffff80269970>] out_of_memory+0x70/0x1f0
Jan 10 10:59:06 llewellyn [<ffffffff8026b4a9>] __alloc_pages+0x239/0x2d0
Jan 10 10:59:06 llewellyn [<ffffffff8026d012>] __do_page_cache_readahead+0x112/0x2c0
Jan 10 10:59:06 llewellyn [<ffffffff8047dab8>] io_schedule+0x28/0x40
Jan 10 10:59:06 llewellyn [<ffffffff88084327>] :dm_mod:dm_table_any_congested+0x47/0x70
Jan 10 10:59:06 llewellyn [<ffffffff88081fdb>] :dm_mod:dm_any_congested+0x4b/0x60
Pareil 1 sec après (répété 9 fois). Voilà maintenant celui qui précède le freeze et l'impossibilité de rebooter. Les apps qui tournaient à ce moment sont au moins : foldingathome, rtorrent & fluxbox dans un screen.
Jan 12 20:29:47 llewellyn invalid opcode: 0000 [1] PREEMPT SMP
Jan 12 20:29:47 llewellyn CPU 0
Jan 12 20:29:47 llewellyn Modules linked in: ipv6 ext2 tsdev usblp usb_storage rtc snd_seq_oss snd_seq_midi_event bt878 i2c
_ali15x3 snd_seq tuner snd_seq_device snd_pcm_oss snd_mixer_oss serio_raw psmouse analog pcspkr nvidia(P) snd_bt87x k8temp
ns558 gameport i2c_ali1535 bttv video_buf ir_common compat_ioctl32 i2c_algo_bit btcx_risc tveeprom videodev v4l1_compat i2c
_ali1563 i2c_core ohci_hcd snd_intel8x0 snd_ac97_codec snd_ac97_bus snd_pcm snd_timer snd soundcore snd_page_alloc ehci_hcd
v4l2_common shpchp pci_hotplug evdev uli526x usbcore ext3 jbd mbcache dm_mod raid1 raid0 md_mod sd_mod ide_cd cdrom sata_u
li libata generic alim15x3 ide_core
Jan 12 20:29:47 llewellyn Pid: 3158, comm: screen Tainted: P 2.6.19-ARCH #1
Jan 12 20:29:47 llewellyn RIP: 0010:[<ffffffff8029864d>] [<ffffffff8029864d>] do_select+0x26d/0x560
Jan 12 20:29:47 llewellyn RSP: 0018:ffff810038a91a58 EFLAGS: 00010202
(1) Notes
Le matos est OK :
- booté avec Sabayon 0.26, Mandriva (Move 2007 puis Powerpack que j'ai installé sur le raid+lvm), & INSERT..
- laissé Memtest86+ tourné 2 H sans une seule erreur. Et Hitachi "Fitness test" (lol) dit que tout est okay.
- rtorrent ne s'entend pas avec le kernel-2.6.19 ; une histoire de chunks ratés. AndyRTR me renvoit simplement à ce post, mais je vois pas comment une erreur d'enregistrement de rtorrent sur une partition ext2 séparée peut nicker complètement Arch ?

Publié : lun. 15 janv. 2007, 00:51
par vincentxavier
fluxbox était dans un screen ??

Hum, We love Arch64 !

Publié : lun. 15 janv. 2007, 00:59
par kozaki
Slt vincentxavier Image (sorry je trouve plus le "salut")

Lancé depuis un screen : screen > rtorrent / startx (fluxbox). Et screen qui plante clairement dans le log :
Jan 12 20:29:47 llewellyn Pid: 3158, comm: screen Tainted: P 2.6.19-ARCH #1
EDITÉ la forme car ça avait coupé comme indiqué

PS : tourne sous Mandriva là. Joli mécépaossirapide :?

Publié : lun. 15 janv. 2007, 09:37
par Skunnyk
kozaki a écrit :log)Image (sorry je trouve plus le "salut")
screen > rtorrent / startx (fluxbox)
donc démarré depuis 1 screen (qui apparait clairement dans le
Apparement ca a coupé :D

:inutile:

Publié : dim. 21 janv. 2007, 00:50
par kozaki
qlqn peut expliquer ou vérifier cette info sur le bbs ?
For those having problems with hangs who are using the beyond or CK kernels, try adding this to rc.local:

echo 33 > /proc/sys/vm/dirty_ratio

There seems to be an issue uncovered with ck-based kernels that is only triggered on some systems, and it appears to be set off by a default value of 0 for this tunable (mainline default is 40. see the ck mailing list http://bhhdoa.org.au/pipermail/ck/2007- ... 06545.html).
I had problems with hangs, almost always when using pacman over a loop device, and setting this tunable as above seems to fix them.

Publié : dim. 21 janv. 2007, 11:43
par wain
kozaki a écrit :qlqn peut expliquer ou vérifier cette info sur le bbs ?
For those having problems with hangs who are using the beyond or CK kernels, try adding this to rc.local:

echo 33 > /proc/sys/vm/dirty_ratio

There seems to be an issue uncovered with ck-based kernels that is only triggered on some systems, and it appears to be set off by a default value of 0 for this tunable (mainline default is 40. see the ck mailing list http://bhhdoa.org.au/pipermail/ck/2007- ... 06545.html).
I had problems with hangs, almost always when using pacman over a loop device, and setting this tunable as above seems to fix them.
J'ai un PC qui plante aléatoirement dès que le taux de transfert augmente sur mon disque dur IDE. Cette commande n'a rien changé pour moi.