[HDD] Recherche cause mort HDD (abandon)

Reconnaissance et configuration du matériel / kernel linux
Répondre
Avatar de l’utilisateur
Ichigo-Roku
yeomen
Messages : 259
Inscription : jeu. 04 févr. 2010, 19:15

[HDD] Recherche cause mort HDD (abandon)

Message par Ichigo-Roku »

Bonsoir,

Il y a environ une ou deux semaine(s), suite à une màj puis un reboot, j'ai eu des erreurs à gogo, avec ce genre d'écrans. Ça arrivait quasi à chaque boot, et petit à petit mon HDD était de plus en plus lent et j'ai dû changer de HDD (il est quasi mort). J'ai aussi fourni des sorties de smartctl et compagnie, mais aucun problème détecté. Par contre lorsque le HDD a commencé à ralentir j'avais une erreur, tout était OK sauf "Reallocated Sector Count" qui était à "Failing"

Ça s'est produit sur mon laptop, puis avec quelques jours de décalage sur mon desktop (j'ai màj plus tard sur mon desktop). On m'avait conseillé de désactiver ncq, mais ça n'a pas résolu le problème. Pour mon desktop j'ai eu de la chance le HDD est toujours vivant, j'avais installé linux-lts et le problème avait semble-t-il disparu.

Ça m'est arrivé sur deux PC différents, avec deux modèles de HDD différents, qui étaient en pleine santé. Je n'ai jamais vu de HDD mourir, alors en voir quasiment mourir deux en même temps, je ne vous dit pas la coïncidence ! Pour l'instant je mets Arch Linux de côté le temps de comprendre le pourquoi du comment, pour résoudre ce problème.

À première vue je pensais à un problème de driver du kernel, mais ayant l'air d'être le seul touché ça m'étonne que ce soit à ce niveau.

Avez-vous une petite idée du problème ? Maintenant que le HDD est mort et renvoyé à HP, ça sera compliqué d'avoir le fin mot de l'histoire. Mais j'ai toujours le HDD de mon desktop, qui avait commencé à avoir les écrans que j'ai donné plus haut, je peux toujours faire des tests sur celui-ci.

En vous remerciant par avance !

Edit : abandon, problème présent sur une seule version du kernel, je fais l'impasse dessus.
Dernière modification par Ichigo-Roku le jeu. 29 mai 2014, 19:32, modifié 1 fois.
Macbook Pro Retina 13" late-2014 (Archlinux + OS X Yosemite)
Elbarto
Elfe
Messages : 671
Inscription : jeu. 22 déc. 2011, 23:15

Re: [HDD] Recherche cause mort HDD

Message par Elbarto »

pour anticiper les problèmes matériels des disques dur je conseille d'utiliser le paquet smartmontools, idéalement il faudrait que le démon smartmontools tourne en permanence en arrière plan pour surveiller toutes les 30 minutes les infos smart des disques,

en cas de problème ( un paramètre smart qui change sans raison ) un warning sera émis, sous forme de mail à l'administrateur système, sur d'autres distributions comme ubuntu il y a une petite application qui permet d'avoir une fenêtre popup d'avertissement ( application qui n'existe pas dans les dépôts officiels d'archlinux, sauf peut-être sur aur mais j'ai pas cherché ),

pour ton problème ça peut venir de la faute à pas de chance, une mauvaise série, une mauvaise ventilation des disques ( la chaleur est l’ennemie des disques dur, ça réduit leur durée de vie ), là encore smartmontools peut être utile en déclenchant un warning dès que le disque dépasse une température critique ( seuil que l'utilisateur peut fixer dans le fichier de configuration ),

il y a aussi une histoire de parquage des têtes de lecture qui a défrayé la chronique dans le passé, un firmware qui déconne chez certaines marques comme western digital :

http://forum.ubuntu-fr.org/viewtopic.php?id=403064

est-ce que tu utilises un onduleur, un bloc parasurtenseur pour te protéger des variations de tension EDF, des orages ?
Avatar de l’utilisateur
Ichigo-Roku
yeomen
Messages : 259
Inscription : jeu. 04 févr. 2010, 19:15

Re: [HDD] Recherche cause mort HDD

Message par Ichigo-Roku »

Ici ce n'est clairement pas faute à pas de chance. Sur mon second HDD en utilisant linux-lts (3.10.X) le problème disparaît. Trois coïncidences du genre ce n'est pas possible. Lorsqu'un problème apparaît après une màj kernel et disparaît après downgrade kernel ce n'est pas une coïncidence.

Je ne transporte pas d'onduleur ou de bloc parasurtenseur avec mon laptop, et pour mon desktop je n'en ai pas non plus.

Je te remercie pour ton aide !
Macbook Pro Retina 13" late-2014 (Archlinux + OS X Yosemite)
Elbarto
Elfe
Messages : 671
Inscription : jeu. 22 déc. 2011, 23:15

Re: [HDD] Recherche cause mort HDD

Message par Elbarto »

le souci c'est que normalement un bug logiciel lié au système d'exploitation ( genre noyau, pilote chipset sata ) ne peut pas entraîner la mort matériel d'un disque dur, ça n’entraîne au pire qu'une corruption du système de fichier, des kernel panics au boot, mais ton disque doit rester en bonne santé,

excepté peut-être le cas du parquage abusif des têtes de lecture ( cf mon lien ci-dessus ), le mode veille des disques dur si le système d'exploitation n'a pas été configuré pour limiter ce phénomène, là ça peut accélérer l'usure du disque ( mais ça se compte en terme de mois, s'il claque en 2 semaines après son achat c'est pas normal ), et le firmware du disque dur s'il est mal conçu ( des mises à jour existent sur le site du fabricant ),

le meilleur moyen d'y voir clair c'est de surveiller les infos SMART régulièrement, scruter les logs système ( dmesg, journalctl à la recherche d'une ligne concernant un souci de disque dur ), regarder aussi la température CPU, la qualité des tensions du bloc d'alimentation ( l'un des facteurs qui favorise la mort des disques ),

la mort en série de disque dur peut aussi s'expliquer si tu les a achetés sur le même site de vente en ligne, ils peuvent avoir été stockés et manipulés ( transport, température ) d'une mauvaise façon, la poste qui maltraite les colis, ton disque arrive alors déjà en mauvais état, ça ne se verra que lorsque le système d'exploitation essaiera d'écrire sur une zone endommagée ( secteur défectueux )
Avatar de l’utilisateur
Ichigo-Roku
yeomen
Messages : 259
Inscription : jeu. 04 févr. 2010, 19:15

Re: [HDD] Recherche cause mort HDD

Message par Ichigo-Roku »

Le problème de SMART c'est qu'il a détecté le problème une fois que c'était irréparable. Je vais basculer sur mon HDD avec Arch Linux demain et voir ce que ça me dit petit à petit, mais je sens bien que le HDD va crever aussi haha.

Le HDD sur mon desktop date de deux ans, et celui de mon laptop date de sept mois environ, j'ai eu mon laptop en octobre dernier. Aucun lien apparent avec les deux, à part la taille de stockage tout diffère.

Bref d'ici demain ou après je devrais avoir des nouvelles.

Merci pour ton aide.
Macbook Pro Retina 13" late-2014 (Archlinux + OS X Yosemite)
oktoberfest
Maître du Kyudo
Messages : 1855
Inscription : mer. 06 janv. 2010, 13:51
Localisation : Ried - Alsace - France

Re: [HDD] Recherche cause mort HDD

Message par oktoberfest »

Concernant le problème de parcage, il est intéressant de lancer la commande :

Code : Tout sélectionner

# smartctl -a /dev/<mon disque dur> | egrep 'Cycle|Power'
  9 Power_On_Hours          0x0032   068   068   000    Old_age   Always       -       23442
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       99
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       56
193 Load_Cycle_Count        0x0032   121   121   000    Old_age   Always       -       238211
On y trouve les informations suivantes :
- Power_On_Hours : le nombre d'heures de fonctionnement du disque (23442 h)
- Power_Cycle_Count : le nombre de fois où le disque a été démarré (99 fois)
- Load_Cycle_Count : le nombre de parcages de tête (238211)

C'est la troisième information qui est intéressante. Sur ce disque le nombre de parcage augmentait toutes les minutes environ. J'ai donc mis en place la fameuse commande :

Code : Tout sélectionner

hdparm -B 253 /dev/hda
Et depuis le Load_Cycle_Count n'augmente que lors de l'extinction de l'ordinateur (ce qui est bien normal).

J'ai eu le souci pour un portable et un desktop.
La majorité des bugs se situe entre la chaise et le clavier...
Arrêtez de vous prendre la tête avec les partitions... passez au LVM
Avatar de l’utilisateur
Ichigo-Roku
yeomen
Messages : 259
Inscription : jeu. 04 févr. 2010, 19:15

Re: [HDD] Recherche cause mort HDD

Message par Ichigo-Roku »

Du coup tout à l'air d'être bon de ce coté :

Code : Tout sélectionner

 9 Power_On_Hours           0x0032   089   089   000    Old_age   Always       -       8488
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2132
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       153
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2001
Pour l'instant SMART n'a aucune erreur. Du côté de dmesg et journalctl rien non plus. 10 minutes d'utilisation c'est sûrement un peu short, je verrais ça ce soir en revenant.

Merci pour ton aide.
Macbook Pro Retina 13" late-2014 (Archlinux + OS X Yosemite)
Avatar de l’utilisateur
Ichigo-Roku
yeomen
Messages : 259
Inscription : jeu. 04 févr. 2010, 19:15

Re: [HDD] Recherche cause mort HDD

Message par Ichigo-Roku »

J'avais oublié le thread que j'avais ouvert.
Pour résumer, après un upgrade du kernel plus de souci, du coup le souci est seulement présent sur une version de linux précise, je n'ai toujours pas compris pourquoi.
J'abandonne donc en l'état, je pense que je n'aurais jamais la réponse, à moins que ça se reproduise.

Merci pour l'aide.
Macbook Pro Retina 13" late-2014 (Archlinux + OS X Yosemite)
Avatar de l’utilisateur
mélodie
Maître du Kyudo
Messages : 2784
Inscription : lun. 30 oct. 2006, 02:06
Localisation : Pyrénées

Re: [HDD] Recherche cause mort HDD (abandon)

Message par mélodie »

Salut,

Le lien de Elbarto sur le forum Ubuntu faisait mention d'un modèle "Caviar green" dés le premier post.

Méfiance avec les "séries spéciales", soit Caviar Green, Black Scorpio et tutti. J'ai déjà lu des retours d'expérience de personnes déçues du peu de longévité de ces séries qui offrent souvent encore plus d'espace disque "pour un prix à peine plus cher".

Ichigo-Roku, de quelle marque et de quels modèles sont précisément tes disques durs ?

(Pour une collision kernel/hardware je n'y crois pas trop).
Avatar de l’utilisateur
Ichigo-Roku
yeomen
Messages : 259
Inscription : jeu. 04 févr. 2010, 19:15

Re: [HDD] Recherche cause mort HDD (abandon)

Message par Ichigo-Roku »

Sur mon desktop c'est un Western Digital Caviar Green oui, et sur mon laptop c'est un Toshiba. Je n'ai pas les modèles exacts sous la main.

Affirmer que ça vient du kernel, je m'avance beaucoup, c'est peut-être autre chose. Par contre ça coïncide entre le moment où ça a commencé et le moment où ça s'est arrêté, rien n'est sûr encore une fois.
Macbook Pro Retina 13" late-2014 (Archlinux + OS X Yosemite)
Répondre