[stockage] SSD capricieux puis en panne, qu'ai-je mal fait ?
Publié : jeu. 29 mai 2014, 14:16
Bonjour à tous !
Le "récit" ci-dessous est sans doute inutilement long, mais je ne suis vraiment pas sûr d'avoir identifié ce qui se passe, donc je préfère en dire trop que pas assez, peut-être que quelqu'un y décèlera un "indice".
Ça fait un moment que mon serveur HP MicroServer me fait des caprices quand je le reboot. Dès quelques mois après sa mise en place, presque à chaque fois que je redémarrais après un pacman -Syu plus ou moins mensuel, il ne redémarrait pas normalement. J'avais partagé mes péripéties dans un premier fil, dès octobre 2013. En résumé le système démarrait en rescue et réclamait un fsck pour la partition système, se trouvant sur un SSD.
Le SMART était bon mais je m'étais rendu compte que je n'avais pris aucune mesure particulière pour un SSD. J'avais alors activé le TRIM en utilisant le flag discard dans le fstab. Il me semble que ça avait mieux fonctionné quelques temps.
Le mois dernier il m'a refait le coup. J'avais donc lancé fsck, qui m'avait fait corriger des dizaines d'erreurs. Il avait fallu que je re-choisisse le SSD comme premier support de stockage sur lequel démarrer dans le BIOS. Puis c'était reparti. Je n'avais pas pris le temps de creuser.
Rebelote cette semaine : fsck, reconfiguration du BIOS, redémarrage avec succès. Je profite d'avoir écran et clavier branchés (la machine est habituellement headless) pour faire un pacman -Syu et voir s'il s'en sort. Mais au redémarrage après l'affichage de "Booting the kernel.", rien ne se passe pendant 5 min. Je force le redémarrage, je vois des messages d'erreurs liés au stockage, à nouveau un fsck obligatoire. Au redémarrage suivant, il démarre à nouveau en rescue et j'obtiens le message "Could this be a zero-lenght partition?". Je redémarre encore et cette fois c'est le SMART qui se manifeste et m'indique "BAD".
http://i.imgur.com/Oahdb4p.jpg
http://i.imgur.com/AgrdLAP.jpg
Je crois comprendre que le SSD est mort. C'était un Crucial V4 de 32 Go, donc un ancien modèle d'entrée de gamme et de petite capacité.
Est-ce que je suis simplement tombé sur un modèle défaillant ? (ce qui me semble étonnant, généralement soit ça tombe en panne rapidement, soit ça fonctionne très longtemps) Ou bien est-ce que je n'ai pas pris les mesures nécessaires pour le préserver ? Je n'ai pas touché à la configuration des logs par exemple, auraient-ils entraîné de tels volumes d'écritures que j'ai déjà fais le tour des cellules ?
Ce SSD et ce qu'il contenait n'est pas une grande perte, je n'avais aucune donnée personnelle dessus, seulement des fichiers de configuration que je devrai refaire. Mais avant de racheter un nouveau SSD ou même un nouveau disque dur, j'aimerais comprendre quelle a été mon erreur pour ne pas recommencer. Quelqu'un a une idée ?
Il y a tout plein d'autres photos ici :
http://imgur.com/a/smbmU
Le "récit" ci-dessous est sans doute inutilement long, mais je ne suis vraiment pas sûr d'avoir identifié ce qui se passe, donc je préfère en dire trop que pas assez, peut-être que quelqu'un y décèlera un "indice".

Ça fait un moment que mon serveur HP MicroServer me fait des caprices quand je le reboot. Dès quelques mois après sa mise en place, presque à chaque fois que je redémarrais après un pacman -Syu plus ou moins mensuel, il ne redémarrait pas normalement. J'avais partagé mes péripéties dans un premier fil, dès octobre 2013. En résumé le système démarrait en rescue et réclamait un fsck pour la partition système, se trouvant sur un SSD.
Le SMART était bon mais je m'étais rendu compte que je n'avais pris aucune mesure particulière pour un SSD. J'avais alors activé le TRIM en utilisant le flag discard dans le fstab. Il me semble que ça avait mieux fonctionné quelques temps.
Le mois dernier il m'a refait le coup. J'avais donc lancé fsck, qui m'avait fait corriger des dizaines d'erreurs. Il avait fallu que je re-choisisse le SSD comme premier support de stockage sur lequel démarrer dans le BIOS. Puis c'était reparti. Je n'avais pas pris le temps de creuser.
Rebelote cette semaine : fsck, reconfiguration du BIOS, redémarrage avec succès. Je profite d'avoir écran et clavier branchés (la machine est habituellement headless) pour faire un pacman -Syu et voir s'il s'en sort. Mais au redémarrage après l'affichage de "Booting the kernel.", rien ne se passe pendant 5 min. Je force le redémarrage, je vois des messages d'erreurs liés au stockage, à nouveau un fsck obligatoire. Au redémarrage suivant, il démarre à nouveau en rescue et j'obtiens le message "Could this be a zero-lenght partition?". Je redémarre encore et cette fois c'est le SMART qui se manifeste et m'indique "BAD".
http://i.imgur.com/Oahdb4p.jpg
http://i.imgur.com/AgrdLAP.jpg
Je crois comprendre que le SSD est mort. C'était un Crucial V4 de 32 Go, donc un ancien modèle d'entrée de gamme et de petite capacité.
Est-ce que je suis simplement tombé sur un modèle défaillant ? (ce qui me semble étonnant, généralement soit ça tombe en panne rapidement, soit ça fonctionne très longtemps) Ou bien est-ce que je n'ai pas pris les mesures nécessaires pour le préserver ? Je n'ai pas touché à la configuration des logs par exemple, auraient-ils entraîné de tels volumes d'écritures que j'ai déjà fais le tour des cellules ?
Ce SSD et ce qu'il contenait n'est pas une grande perte, je n'avais aucune donnée personnelle dessus, seulement des fichiers de configuration que je devrai refaire. Mais avant de racheter un nouveau SSD ou même un nouveau disque dur, j'aimerais comprendre quelle a été mon erreur pour ne pas recommencer. Quelqu'un a une idée ?

Il y a tout plein d'autres photos ici :
http://imgur.com/a/smbmU