[Systemd] Coredumps fréquents (Résolu)

Applications, problèmes de configuration réseau
Avatar de l’utilisateur
Xorg
Maître du Kyudo
Messages : 1933
Inscription : dim. 22 janv. 2012, 19:25
Localisation : Entre le clavier et la chaise.

[Systemd] Coredumps fréquents (Résolu)

Message par Xorg »

Bonjour,

Depuis quelques temps déjà, j'ai souvent des coredumps qui se produisent (ils apparaissent très clairement dans le journal). Quelques extraits :

Code : Tout sélectionner

mai 16 11:02:03 localhost FAHClient[699]: 09:02:03:WU02:FS00:0xa4:Completed 185000 out of 250000 steps  (74%)
mai 16 11:03:44 localhost kernel: FahCore_a4[823]: segfault at 7fd9c5e64c14 ip 00000000006636fe sp 00007fd9d29065d0 error 4 in FahCore_a4[400000+5e9000]
mai 16 11:03:45 localhost systemd-coredump[27851]: Process 713 (FahCore_a4) of user 0 dumped core.
mai 16 11:03:45 localhost FAHClient[699]: 09:03:45:WU02:FS00:FahCore returned: INTERRUPTED (102 = 0x66)
mai 16 11:03:45 localhost FAHClient[699]: 09:03:45:WU02:FS00:Starting
...
mai 16 14:00:49 localhost kernel: Chrome_ChildThr[14992]: segfault at 0 ip 00007f4f4f92d005 sp 00007f4f3b059520 error 6 in libmozalloc.so[7f4f4f92c000+2000]
mai 16 14:00:52 localhost systemd-coredump[21748]: Process 2348 (firefox) of user 1000 dumped core.
mai 16 14:00:52 localhost systemd-coredump[22017]: Process 14991 (plugin-containe) of user 1000 dumped core.
L'utilisateur 0 c'est root comme vous le savez déjà, et le 1000 correspond bien à la session que j'utilise.

Le réel problème de ces coredumps, c'est qu'ils apparaissent trop souvent à mon goût, j'en ai généralement tous les jours, je peux en avoir plusieurs fois par jour (cf aujourd'hui). Mais ce qui m'inquiète dans tout ça, c'est que plusieurs programmes différents sont touchés (Folding@Home, Firefox, Medit...). Les programmes en question crashent sans aucun signe au préalable.

J'ai un peu voulu regarder ce que ça donne avec coredumpctl, et ça dit la même chose :

Code : Tout sélectionner

TIME                            PID   UID   GID SIG PRESENT EXE
sam. 2015-05-16 11:03:45 CEST    713     0     0  11 * /opt/fah/cores/web.stanford.edu/~pande/Linux/AMD64/Core_a4.fah/FahCore_a4
sam. 2015-05-16 14:00:52 CEST   2348  1000   100  11 * /usr/lib/firefox/firefox
sam. 2015-05-16 14:00:52 CEST  14991  1000   100  11 * /usr/lib/firefox/plugin-container
J'ai lu la page Core_dump du Wiki, j'ai donc créé un dump file, puis j'ai lancé Firefox dans gdb avec le core extrait. Voici la trace d'exécution :

Code : Tout sélectionner

...
Using host libthread_db library "/usr/lib/libthread_db.so.1".
Core was generated by `firefox'.
Program terminated with signal SIGSEGV, Segmentation fault.
#0  0x00007f2d563a5609 in raise () from /usr/lib/libpthread.so.0
(gdb) bt
#0  0x00007f2d563a5609 in raise () from /usr/lib/libpthread.so.0
#1  0x00007f2d52e3a27a in ?? () from /usr/lib/firefox/libxul.so
#2  <signal handler called>
#3  0x00007f2d537e7dad in ?? () from /usr/lib/firefox/libxul.so
#4  0x00007f2d539e882f in ?? () from /usr/lib/firefox/libxul.so
#5  0x00007f2d53da4c9b in ?? () from /usr/lib/firefox/libxul.so
#6  0x00007f2d539e4f3e in ?? () from /usr/lib/firefox/libxul.so
#7  0x00007f2d539e4759 in ?? () from /usr/lib/firefox/libxul.so
#8  0x00007f2d53dac783 in ?? () from /usr/lib/firefox/libxul.so
#9  0x00007f2d532e91f3 in ?? () from /usr/lib/firefox/libxul.so
#10 0x00007f2d533e3061 in ?? () from /usr/lib/firefox/libxul.so
#11 0x00007f2d53615019 in ?? () from /usr/lib/firefox/libxul.so
#12 0x00007f2d536180cb in ?? () from /usr/lib/firefox/libxul.so
#13 0x00007f2d53361cfb in ?? () from /usr/lib/firefox/libxul.so
#14 0x00007f2d53361ac4 in ?? () from /usr/lib/firefox/libxul.so
#15 0x00007f2d5335ea6f in ?? () from /usr/lib/firefox/libxul.so
#16 0x00007f2d5336e91c in ?? () from /usr/lib/firefox/libxul.so
#17 0x00007f2d533b19ae in ?? () from /usr/lib/firefox/libxul.so
#18 0x00007f2d53b35472 in ?? () from /usr/lib/firefox/libxul.so
#19 0x00007f2d53c7786a in ?? () from /usr/lib/firefox/libxul.so
#20 0x00007f2d53d0e19e in ?? () from /usr/lib/firefox/libxul.so
#21 0x00007f2d53d21418 in ?? () from /usr/lib/firefox/libxul.so
---Type <return> to continue, or q <return> to quit---
#22 0x00007f2d53d1f976 in ?? () from /usr/lib/firefox/libxul.so
#23 0x00007f2d53d1f738 in XRE_main () from /usr/lib/firefox/libxul.so
#24 0x000000000040fe54 in ?? ()
#25 0x000000000040c296 in ?? ()
#26 0x00007f2d557fa800 in __libc_start_main () from /usr/lib/libc.so.6
#27 0x000000000040fad9 in _start ()
(gdb) 
C'est vrai que sans les symboles de debugging, ça n'aide pas trop. Que penser de tout ça ? Est-ce qu'un problème matériel peut en être la cause ?

J'espère que des personnes sauront me répondre.
Dernière modification par Xorg le ven. 22 mai 2015, 18:20, modifié 1 fois.
Arch Linux x86_64 - Sway
AMD Ryzen 5 3600X - 32 Go de DDR4 - SSD NVMe 1 To + SSD SATA 250 Go - Sapphire NITRO+ Radeon RX 580
Image AUR___Image Wiki___Image GitHub
arthur33
Hankyu
Messages : 49
Inscription : jeu. 27 oct. 2011, 22:33
Localisation : Talence
Contact :

Re: [Systemd] Coredumps fréquents

Message par arthur33 »

Bonjour,

Si tu as un processeur Intel, tu devrais installer intel-ucode et ajouter /boot/intel-ucode.img en initrd avant initramfs-linux.img sur ton bootloader (cf la page du wiki sur le Microcode), pour pouvoir mettre à jour le microcode de ton processeur ; cela aide parfois pour ce genre de problème, surtout sur les séries récentes (Haswell, Broadwell etc) qui ont souvent un microcode de base contenant des bugs.

Si cela n'aide pas, tu peux peut-être regarder du côté de la température de ton processeur et/ou de tes barettes de RAM (voir faire un test de celles-ci avec memtest86+), un processeur trop chaud cause souvent des erreurs d'exécution pouvant aboutir à des segfault, une barette de ram trop chaude ou défectueuse également.
Utiliser GNU/Linux n'est pas une mode, c'est un choix d'ouverture, de liberté et de partage.
Mon blog :http://www.art-software.fr/blog.php
Avatar de l’utilisateur
Xorg
Maître du Kyudo
Messages : 1933
Inscription : dim. 22 janv. 2012, 19:25
Localisation : Entre le clavier et la chaise.

Re: [Systemd] Coredumps fréquents

Message par Xorg »

Salut arthur33,

En effet j'ai bien un CPU Intel, au niveau microcode je suis déjà à jour :

Code : Tout sélectionner

[    0.000000] Kernel command line: initrd=\EFI\archlinux\intel-ucode.img initrd=\EFI\archlinux\initramfs-linux-ck.img root=UUID=16a650d7-aad2-4173-85f8-16dbf286432a rw quiet gpt rootfstype=ext4 efi_no_storage_paranoia cgroup_disable=memory raid=noautodetect radeon.audio=0 fbcon=scrollback:256k
...
[    0.000000] CPU0 microcode updated early to revision 0x29, date = 2013-06-12
[    0.266026] CPU1 microcode updated early to revision 0x29, date = 2013-06-12
[    0.279457] CPU2 microcode updated early to revision 0x29, date = 2013-06-12
[    0.292857] CPU3 microcode updated early to revision 0x29, date = 2013-06-12
[    0.391761] microcode: CPU0 sig=0x206a7, pf=0x2, revision=0x29
[    0.391765] microcode: CPU1 sig=0x206a7, pf=0x2, revision=0x29
[    0.391770] microcode: CPU2 sig=0x206a7, pf=0x2, revision=0x29
[    0.391776] microcode: CPU3 sig=0x206a7, pf=0x2, revision=0x29
[    0.391809] microcode: Microcode Update Driver: v2.00 <tigran@aivazian.fsnet.co.uk>, Peter Oruba
C'est du Sandy Bridge, donc Intel ne s'en intéresse plus trop à mon avis. Je pense que le microcode 0x29 est bien le dernier en date.

Concernant les températures, je n'en ai pas parlé bien qu'effectivement j'ai remarqué qu'il y a un lien, car c'est très fréquent quand mon CPU monte vers 75°C (il arrive que j'ai le ventilateur en pull sur le radiateur de mon CPU qui n'arrive pas à démarrer tout seul). Mais là ça m'est arrivé alors que le CPU était à une température correcte. Puis franchement, 75°C, ça me paraît pas si énorme que ça pour un CPU, je l'ai déjà vu monter à 100°C (et au delà la sécurité se déclenche).
Pour la RAM, je testerai avec MemTest86 (sans le +) quelques heures, et je reviendrai vous tenir au courant.

Merci pour tout. :)

EDIT : Mon UEFI est bien à jour (image).
Arch Linux x86_64 - Sway
AMD Ryzen 5 3600X - 32 Go de DDR4 - SSD NVMe 1 To + SSD SATA 250 Go - Sapphire NITRO+ Radeon RX 580
Image AUR___Image Wiki___Image GitHub
Avatar de l’utilisateur
Xorg
Maître du Kyudo
Messages : 1933
Inscription : dim. 22 janv. 2012, 19:25
Localisation : Entre le clavier et la chaise.

Re: [Systemd] Coredumps fréquents

Message par Xorg »

Effectivement, ça alors ! J'étais pourtant certain que j'avais déjà fait un test de stabilité de ma RAM. En effet, le profil XMP de ma RAM définit une fréquence de 1600MHz avec des timings de 7-8-7-24 avec une tension de 1.5V. J'avais overclocké ma RAM (2133MHz, 7-10-8-25 à 1,65V), et en moins de 10 minutes de MemTest, il y avait déjà 2 erreurs.
J'ai rétablit le profil XMP, et après 5h de MemTest, toujours 0 erreur.

Donc l'overclocking de ma RAM n'est pas aussi stable que je pensais (cependant, il y a quelques mois en arrière, les coredumps étaient moins fréquents que ça et pourtant c'était déjà OC). Je vais bien voir ces prochains jour si avec le profil XMP ça corrige ces soucis ou non (donc je reviendrai poster). :)
Arch Linux x86_64 - Sway
AMD Ryzen 5 3600X - 32 Go de DDR4 - SSD NVMe 1 To + SSD SATA 250 Go - Sapphire NITRO+ Radeon RX 580
Image AUR___Image Wiki___Image GitHub
Avatar de l’utilisateur
Xorg
Maître du Kyudo
Messages : 1933
Inscription : dim. 22 janv. 2012, 19:25
Localisation : Entre le clavier et la chaise.

Re: [Systemd] Coredumps fréquents (Résolu)

Message par Xorg »

Après des dizaines d'heures de MemTest86, j'ai enfin stabilisé ma RAM à 8-10-9-25 @2133MHz (contre 7-10-8-25 auparavant). Ces derniers jours je n'ai pas eu de coredumps, donc je vais considérer que c'était ma RAM l'origine du problème.

Merci bien pour ton aide, j'ai mis le sujet en résolu. :)
Arch Linux x86_64 - Sway
AMD Ryzen 5 3600X - 32 Go de DDR4 - SSD NVMe 1 To + SSD SATA 250 Go - Sapphire NITRO+ Radeon RX 580
Image AUR___Image Wiki___Image GitHub
Répondre