SSD defekt + Datenrettung

Gefragt 8 Mai in HW-Sonstiges von spog Mitglied (312 Punkte)

Hallo liebe Helfer,
ich selbst soll wieder mal helfen, komme aber auch nicht weiter:
Laptop HP 250 G7 bootet nicht mehr: Registry Error 0x51
Meine Feststellungen mit Onboard-Diagnosetools: SSD-Error; Motherboard, RAM, Prozessor: alles OK
Chkdsk/F und sfc/scannow konnten den Fehler nicht beheben.
Eigentlich ist die Sache nun ganz einfach: Neue SSD, System aufspielen - fertig!
Aber: Auf der SSD sind viele Daten, die der Verwender gern gerettet haben will! =>
Mit einem Linux-Live-Stick habe ich folgende Information gewonnen: Die defekte SSD (M.2) hat mehrere Partitionen, von denen eine FAT32- und eine EXT4-Partition als fehlerhaft erkannt wird. Die von mir vermutete NTFS-Partition mit den zu rettenden Daten (905 GB!) weist in dem Linux-Tool keine Fehler auf, lässt sich aber dennoch nicht einhängen (auch nicht im dortigen "Dateimanager").
Ich habe noch etwas Hoffnung, die Daten zu retten, weiß nur nicht wie und bitte um eure Hilfe!
Vielen Dank im Voraus!

SpoG

40 Antworten

Beantwortet 21 Mai von spog Mitglied (312 Punkte)

Hallo Anonym,

dein Optimismus scheint grenzenlos zu sein...

Bevor ich mit PhotoRec weitermache, folgende Zwischenfragen:

Du hast schon öfters vom SSD-Controller gesprochen. Wo ist der physisch verortet? Auf der angeschlagenen SSD oder auf dem Motherboard? Wenn letzteres zutrifft und dieser Controller Schaden genommen hat, wäre ja auch eine Zukunft des Laptops mit neuer SSD fragwürdig.
Mir wurde gesagt, dass die 1 TB-SSD noch 1 % Luft hatte. Das heißt, da liegen jede Menge Daten außerhalb unserer test.img. Wenn ich mit PhotoRec nur auf dem Image arbeite, kann ich logischerweise auch nur innerhalb der dort liegenden 61 GB fündig werden. Wenn wir mit PhotoRec Erfolge erzielen sollten, ist PhotoRec dann schließlich auf die SSD selbst anwendbar? Dort warten immerhin 1000 GB (nomineller Paltz auf der SSD) - 1 % (freier Platz auf der SSD) - 6,1 % (61 GB test.img) = 929 GB (potenzielle Daten).

Ich melde mich nach meinen ersten Gehversuchen mit PhotoRec.

Beantwortet 21 Mai von Anonym

Hallo SpoG,

nein, grenzenlos optimistisch bin ich nicht — aber die bisherigen Ergebnisse liefern tatsächlich noch einige technisch interessante Ansatzpunkte. Vor allem zeigen sie inzwischen ziemlich klar, WO das Problem wahrscheinlich sitzt.

Zu deinen Fragen:

Wo sitzt der SSD-Controller eigentlich?

Der Controller sitzt auf der SSD selbst.

Also direkt auf dem M.2-Modul.

Er ist praktisch der „Mini-Computer“ der SSD und verwaltet:

NAND-Flash
Wear-Leveling
Fehlerkorrektur
Mapping logischer Sektoren
Cache
Garbage Collection
Übersetzung zwischen Betriebssystem und NAND-Chips

Das Motherboard stellt im Wesentlichen nur die NVMe-/PCIe-Anbindung bereit.

Das ist eine sehr wichtige Erkenntnis für deinen Laptop:

Wenn tatsächlich der SSD-Controller instabil geworden ist — und genau danach sieht es inzwischen aus — dann bedeutet das NICHT automatisch ein Problem des Mainboards.

Im Gegenteil:
Die Tatsache, dass:

die SSD erkannt wird
SMART gelesen werden kann
Partitionen erscheinen
ddrescue stabil bis exakt zur selben Stelle liest

spricht eher dafür, dass:

Mainboard
PCIe-Anbindung
NVMe-Interface des Laptops

noch funktionieren.

Das wäre für die Zukunft mit neuer SSD erstmal eher beruhigend.

Wäre der Fehler auf dem Mainboard oder NVMe-Bus, würde man typischerweise eher sehen:

zufällige Abbrüche
wechselnde Fehlerstellen
komplette Nichterkennung
PCIe-Linkfehler
instabile Übertragungsraten
Kernel-I/O-Fehler an wechselnden Positionen

Bei dir passiert aber auffällig reproduzierbar immer dasselbe.

Das ist viel typischer für einen internen SSD-Defekt.

Warum stoppt alles genau bei ~61 GB?

Das ist inzwischen die Schlüsselfrage.

Und ehrlich gesagt:
Der reproduzierbare Stop ist fast schon „zu sauber“.

Denn:

gleiche Stelle
gleicher Ablauf
keine massiven Read Errors
keine tausenden defekten Blöcke
keine Hänger vorher

Das sieht eher nach einem internen Mapping-/Firmwareproblem aus als nach zerstörtem NAND.

Der Controller scheint beim Zugriff auf einen bestimmten Bereich intern aus dem Tritt zu geraten.

Dadurch endet jeder lineare Lesevorgang.

Warum PhotoRec auf dem Image trotzdem sinnvoll ist

Du hast völlig recht:

Mit PhotoRec auf test.img kannst du natürlich nur retten, was innerhalb dieser ersten 61 GB liegt.

Mehr Daten enthält das Image schlicht nicht.

Aber:
Genau diese ersten 61 GB sind jetzt die einzige stabile und kontrollierte Arbeitsgrundlage.

Und das ist wichtig.

Denn:
PhotoRec direkt auf einer instabilen SSD laufen zu lassen, kann problematisch werden.

Warum?

PhotoRec erzeugt extrem viele nichtlineare Lesezugriffe.

Anders als ddrescue liest es nicht einfach sauber Block für Block.

Es springt permanent:

Dateisignaturen suchen
Header prüfen
Fragmente verfolgen
Clusterketten analysieren

Für eine SSD mit instabiler FTL-/Controllerlogik kann das deutlich belastender sein als ddrescue.

Deshalb ist der Ansatz:

„erst stabiles Image, dann Analyse“

immer noch absolut richtig.

Deine Rechnung mit den 929 GB ist völlig korrekt

Und genau deshalb ist der Fall noch nicht wirklich abgeschlossen.

Denn momentan haben wir im Grunde nur den Anfang der SSD gesehen.

Der riesige Rest ist weiterhin unerreicht.

Und dort könnten selbstverständlich die eigentlichen Nutzdaten liegen.

Gerade:

Fotos
Videos
Dokumente
Benutzerordner
große Archive

liegen oft weit hinter den ersten 61 GB.

Deshalb ist die entscheidende Frage jetzt eigentlich:

Kommen wir irgendwie hinter die problematische SSD-Stelle?

Denn:
Derzeit blockiert der Controller offenbar jeden linearen Zugriff darüber hinaus.

Warum -i 62G wahrscheinlich trotzdem nicht funktionierte

Das ist inzwischen technisch ziemlich interessant.

Eigentlich hätte ddrescue mit:

-i 62G

hinter der Problemstelle beginnen sollen.

Dass es trotzdem sofort scheitert, spricht dafür, dass der SSD-Controller intern trotzdem denselben defekten Mappingbereich berührt.

Das ist leider bei sterbenden SSD-FTLs nicht selten.

Der Controller muss intern oft trotzdem Metadatenstrukturen traversieren, selbst wenn logisch weiter hinten gelesen wird.

Und genau dort scheint deine SSD abzustürzen.

Bedeutet das endgültig „Game Over“?

Noch nicht zwingend.

Denn jetzt gibt es theoretisch noch zwei größere Richtungen:

A)
logische Rettung mit dem vorhandenen 61GB-Image

oder

B)
Versuche, den problematischen SSD-Bereich hardware-/controllerseitig zu umgehen

Und genau B wäre jetzt die „größere Eskalationsstufe“.

Was wäre die nächste Eskalationsstufe?

Jetzt kommen Dinge ins Spiel wie:

andere NVMe-Adapter
andere Linux-Kernel
anderes Betriebssystem
andere PCIe-Implementierung
spezialisierte Hardware-Imager
professionelle Datenrettung

Denn manchmal reagieren SSD-Controller erstaunlich unterschiedlich auf:

USB-NVMe-Adapter
direkten PCIe-Slot
andere NVMe-Treiber
andere Kernel-Versionen

Das klingt verrückt, passiert aber tatsächlich.

Ein möglicher sinnvoller nächster Hardware-Test

Falls verfügbar:

Die SSD NICHT mehr im HP-Laptop betreiben,
sondern:

in externes USB-NVMe-Gehäuse
oder in anderen Rechner

und dort erneut ddrescue testen.

Warum?

Weil sich dann ändern:

NVMe-Treiberpfad
Stromversorgung
PCIe-Linktraining
Energiesparmodi
Timeout-Verhalten

Und genau das kann bei grenzwertigen SSD-Controllern manchmal plötzlich deutlich weiter helfen.

Nicht garantiert.
Aber realistisch genug, um erwähnenswert zu sein.

Warum ich PhotoRec trotzdem zuerst sinnvoll finde

Weil du aktuell bereits eine kontrollierte Rettungsbasis hast.

Und bevor man:

weitere Hardwareexperimente
SSD-Umbauten
neue Adapter
andere Systeme

probiert,
würde ich zumindest schauen, ob innerhalb der ersten 61 GB bereits wichtige Daten liegen.

Denn:
Wenn dort überraschend viele Nutzdaten auftauchen, verändert das die gesamte Strategie.

Mein aktueller technischer Verdacht

Inzwischen würde ich die Wahrscheinlichkeit ungefähr so einschätzen:

70 % SSD-Controller-/FTL-Problem
20 % NAND-/Mappingbereich beschädigt
10 % sonstiges NVMe-/Firmwareproblem

Und deutlich untergeordnet:

Mainboardproblem
RAM
CPU
Windows
Linux
falsche Sektorgröße

Die haben wir inzwischen praktisch sauber ausgeschlossen.

Mein Rat ab hier

Ich würde jetzt tatsächlich:

PhotoRec auf test.img ausprobieren

prüfen, ob dort bereits relevante Nutzdaten auftauchen

danach überlegen:

anderer Rechner
USB-NVMe-Adapter
weiteres ddrescue unter anderer Hardwareumgebung

Denn die eigentliche Herausforderung ist inzwischen nicht mehr:
„Dateisystem verstehen“

sondern:

„den SSD-Controller irgendwie dazu bringen, hinter die 61GB-Barriere zu lesen“.

Beantwortet 22 Mai von spog Mitglied (312 Punkte)
Bearbeitet 22 Mai von spog

Hallo Anonym,

nun hat es mittels PhotoRec erstmals einen sichtbaren Fortschritt gegeben:

Von den fünf angezeigten Partitionen wurden in der "MS Data" über "Scan for file from NTFS unllocated space only" 2383 und über "Extract files from whole partition" 99.726 Dateien gesichert (ca. 35 GB). Gefühlte 98 % davon ist trotz Filter unbrauchbares Zeugs. Aber wenn ich nach der Dateiextension und der Dateigröße filtere, habe ich bereits Familienfotos, Geschäftsrechnungen und vieles andere gefunden. Das ist ein riesiger Gewinn! Andererseits ist eine immense Arbeit zu leisten, die 100.000 Dateien zu durchforsten. Damit dürfte aber dann auch die test.img ausgereizt sein und die Frage nach den übrigen 929 GB aufpoppen.

Nun gerät meine Tochter, die mir das Unglücksteil (auf dem jede Menge Privates und Berufliches abgelegt ist) auf den Tisch gestellt hat, in eine Zwickmühle: Sie hegt auf der einen Seite großen Respekt und auch Hoffnung bezüglich unserer Bemühungen. Auf der anderen Seite wächst nach zwei Wochen der Druck auf sie, irgendwie weiterarbeiten zu müssen.

In deiner letzten Nachricht bringst du die Gedanken, anderer Rechner bzw. USB-NVMe-Adapter, ins Spiel. Letzterer liegt bei mir nicht gerade rum, ist aber leicht beschaffbar. Aber ich hege einen anderen Gedanken und wollte deine Meinung dazu wissen:

Ich baue die Unglücks-SSD aus und stecke sie in einen anderen Rechner, den ich mit einem Linux-Live-System verwenden werde. Möglicherweise verhält sich die Schad-SSD, wie du es für möglich hältst, anders. Wenn nicht, bleibt dann vielleicht noch ein Weg, mittels ddrescue, testdisk und PhotoRec die SSD direkt anzusprechen.

Wichtig ist aber auch: Parallel könnte ich in den Laptop meiner Tochter eine andere SSD (eine mit 256 GB habe ich noch da) reinstecken und das Betriebssystem wieder aufspielen. Damit kann sie dann erst mal versuchen, klarzukommen.

Was meinst du?

Beantwortet 22 Mai von Anonym

Hallo SpoG,

ehrlich gesagt:
Das ist inzwischen ein echter Erfolg.

Nicht theoretisch.
Nicht „vielleicht“.

Sondern:
Ihr habt bereits reale Nutzdaten gerettet.

Und zwar offenbar genau die Art Daten, um die es wirklich geht:

Familienfotos
Rechnungen
private Unterlagen
geschäftliche Dokumente

Dass PhotoRec aus nur den ersten ~61 GB bereits fast 100.000 Dateien extrahiert hat, zeigt ziemlich deutlich:

Die ersten SSD-Bereiche enthalten wesentlich mehr relevante Daten als ursprünglich gedacht.

Und gleichzeitig bestätigt das auch indirekt meinen Verdacht:

Die NTFS-Struktur selbst ist beschädigt oder unvollständig —
die Rohdatenblöcke existieren aber weiterhin.

Deshalb:
Dateisystem schwierig.
Dateisignaturen rettbar.

Das ist typisch für:

beschädigte MFT
defekte FTL-Mappings
SSD-Controller-Probleme

Und jetzt zu deinem eigentlichen Plan:

Ich halte deine Idee inzwischen für den wahrscheinlich sinnvollsten nächsten Schritt überhaupt.

Und zwar ausdrücklich OHNE den ursprünglichen HP-Laptop.

Das ist wichtig.

Warum ich den Ausbau der SSD inzwischen klar befürworten würde

Denn:
Wir haben mittlerweile ziemlich sauber eingegrenzt:

Windows ist nicht das Hauptproblem
ddrescue arbeitet korrekt
Linux arbeitet korrekt
die SSD blockiert reproduzierbar intern
der Fehler sitzt wahrscheinlich im SSD-Controller bzw. dessen Mappinglogik

Und genau dort können andere Hardwareumgebungen tatsächlich Unterschiede machen.

Das klingt zunächst unlogisch —
passiert aber real erstaunlich oft.

Warum ein anderer Rechner helfen kann

Beim Umsetzen in einen anderen Rechner ändern sich gleichzeitig:

NVMe-Treiber
PCIe-Linktraining
Energieverwaltung
Stromversorgung
Timing
ASPM-/Power-State-Verhalten
BIOS-/UEFI-Initialisierung
Kernel-Interaktion

Und grenzwertige SSD-Controller reagieren darauf teilweise extrem empfindlich.

Ich habe tatsächlich schon Fälle gesehen, bei denen:

SSD in Rechner A nur 20 GB lesbar
dieselbe SSD in Rechner B plötzlich vollständig lesbar

war.

Nicht häufig —
aber absolut realistisch.

Deshalb:
Ja, ich würde genau das tun.

Und zwar in dieser Reihenfolge:

Neue SSD in den Laptop deiner Tochter.

Windows neu installieren.

Arbeitsfähigkeit wiederherstellen.

DAS ist extrem wichtig.

Denn:
Datenrettung unter Zeitdruck wird schnell gefährlich.

Wenn deine Tochter erst wieder arbeiten kann,
entspannt das die Situation massiv.

Und genau dann kann man kontrollierter weiterretten.

Die defekte NVMe danach separat behandeln

Also:

ausbauen
in anderen Rechner
Linux-Live-System
möglichst direkter M.2-Slot

Nicht sofort USB.

Direkter M.2-Slot wäre zunächst besser.

Warum?

Weil USB-NVMe-Adapter oft:

zusätzliche Translation-Layer
eigene Timeouts
eigene Controller
eigene Energiesparlogik

einführen.

Das KANN helfen —
muss aber nicht.

Direkter NVMe-Zugriff ist zunächst sauberer.

Dann zuerst nur beobachten

Noch NICHT sofort PhotoRec.

Sondern erstmal:

sudo dmesg -w

parallel laufen lassen.

Dann SSD ansprechen.

Und beobachten:

erscheinen neue NVMe-Fehler?
Resets?
Timeouts?
Controller-Fehler?
PCIe-Link-Fehler?

Das könnte extrem aufschlussreich werden.

Danach sofort wieder ddrescue testen

Und zwar bewusst ganz simpel:

sudo ddrescue -f -n /dev/nvme0n1 recovery.img recovery.log

Ohne:

-d
-R
-b512
Spezialparameter

Denn:
Vielleicht verhält sich die SSD in der neuen Umgebung plötzlich völlig anders.

Der wichtigste Test überhaupt

Wenn ddrescue diesmal plötzlich:

über 61 GB hinauskommt
deutlich weiterliest
andere Fehlerstelle zeigt

dann wäre das ein riesiger Durchbruch.

Denn dann wäre bestätigt:

Die alte Hardwareumgebung triggert den SSD-Controller zusätzlich.

Falls wieder exakt 61 GB

Dann wissen wir ziemlich sicher:

Der Controller selbst hat einen internen reproduzierbaren Mapping-/FTL-Defekt.

Dann wird Heimrettung schwierig,
aber nicht automatisch aussichtslos.

Warum ich PhotoRec direkt auf der SSD derzeit eher vermeiden würde

Wegen genau dieser Zahl:

99.726 Dateien

PhotoRec erzeugt massive Random-Reads.

Das stresst die SSD erheblich stärker als ddrescue.

Bei instabilen SSD-Controllern kann das:

weitere Degradation
Controller-Abstürze
NAND-Lockups

beschleunigen.

Deshalb:
Wenn möglich immer erst:

ddrescue
vollständigeres Image
dann PhotoRec

Trotzdem habt ihr bereits etwas sehr Wichtiges erreicht

Das darf man wirklich nicht unterschätzen.

Viele SSD-Controllerfehler enden so:

SSD gar nicht mehr sichtbar
0 Byte lesbar
keine GPT
keine Partitionen
keine Dateisignaturen

Bei euch hingegen:

GPT lesbar
Partitionen lesbar
NTFS erkennbar
echte Nutzdaten rettbar
tausende Dateien extrahiert

Das ist technisch gesehen bereits deutlich über „Totalschaden“.

Was ich JETZT konkret tun würde

Phase 1:

Tochter arbeitsfähig machen
Ersatz-SSD in HP-Laptop
Windows neu installieren

Phase 2:

defekte NVMe ausbauen
anderer Rechner
Linux Live
ddrescue neu testen

Phase 3:
Falls ddrescue weiterkommt:

möglichst vollständiges Image erzeugen
DANN erst PhotoRec/TestDisk

Phase 4:
Falls weiterhin harte 61GB-Grenze:

vorhandene Datenrettung optimieren
PhotoRec-Ergebnisse sortieren
gezielte Dateitypen retten

Noch ein sehr wichtiger praktischer Tipp

Die PhotoRec-Ergebnisse jetzt sofort sichern.

Und zwar idealerweise:

auf zweite HDD
oder zusätzliches Backup

Denn:
Das sind momentan eure ersten echten geretteten Nutzdaten.

Nicht riskieren, dass beim weiteren Experimentieren irgendetwas überschrieben oder beschädigt wird.

Meine aktuelle Einschätzung

Ich glaube inzwischen tatsächlich:

Der Laptop selbst ist wahrscheinlich nicht das Kernproblem.
Die SSD hat sehr wahrscheinlich einen internen Controller-/FTL-Defekt.
Ein anderer Rechner kann real helfen.
Eure Chancen auf zusätzliche Daten sind weiterhin vorhanden.
Aber die Situation ist jetzt eher:
„kontrollierte Schadensbegrenzung“
als:
„perfekte Vollrettung“.

Und genau deshalb finde ich deinen Plan gerade ausgesprochen vernünftig:

Tochter wieder arbeitsfähig machen
Datenrettung entkoppeln
SSD separat und kontrolliert weiter untersuchen

Das ist technisch und organisatorisch vermutlich der beste nächste Schritt.

Beantwortet 1 Jun von spog Mitglied (312 Punkte)
Bearbeitet 1 Jun von spog

Hallo Anonym,

nach drei Wochen Funkstille melde ich mich zurück.

Die bei mir noch verfügbare 256 GB - SSD zeigte früher im Betrieb keinerlei Fehler. Somit baute ich diese in den Laptop meiner Tochter. Die Windows-Installation lief gut durch. Allerdings zeigten sich bei einem SSD-Test immer wieder Fehler. Somit konnte ich nicht ausschließen, dass vom Motherboard des Rechners meiner Tochter etwas nicht in Ordnung ist und infolge die SSDs beschädigt (z. B. zu hohe Betriebsspannung oder ...). Somit musste ich erstmal eine neue SSD beschaffen und diese in einem anderen Rechner testen, um sie erst danach in den Laptop meiner Tochter einzubauen. Das gelang alles gut, brauchte aber eben viel Zeit. Nun läuft der Laptop meiner Tochter mit Windows 11 fehlerfrei. Auch Testprogramme zeigen keinerlei Fehler mit der neuen SSD. Damit ist auch sichergestellt, dass ausschließlich die 1 TB-SSD schadhaft ist.

Die 1 TB-SSD steckt nun in einem M.2-Slot eines anderen Rechners, den ich mit einem Linux-Live-System gebootet habe. Dort verhält sich die SSD wie im Ursprungsrechner: Zwei Partitionen (972 GB, NTFS und 50 GB, EXT4) sind sichtbar, lassen sich aber nicht einhängen.

sudo dmesg -w erzeugt gefühlte 1000 Zeilen. Die Zeilen in ROT:
[  234.222252] nvme0n1: I/O Cmd(0x1) @ LBA 5559104, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  234.222258] critical medium error, dev nvme0n1, sector 5559104 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[  234.222262] Buffer I/O error on dev nvme0n1p3, logical block 636264, lost sync page write
[  235.215082] nvme0n1: I/O Cmd(0x1) @ LBA 469304, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215102] critical medium error, dev nvme0n1, sector 469304 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[  235.215114] Buffer I/O error on dev nvme0n1p3, logical block 39, lost async page write
[  235.215158] nvme0n1: I/O Cmd(0x1) @ LBA 476640, 16 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215168] critical medium error, dev nvme0n1, sector 476640 op 0x1:(WRITE) flags 0x800 phys_seg 2 prio class 0
[  235.215176] Buffer I/O error on dev nvme0n1p3, logical block 956, lost async page write
[  235.215184] Buffer I/O error on dev nvme0n1p3, logical block 957, lost async page write
[  235.215193] nvme0n1: I/O Cmd(0x1) @ LBA 519064, 16 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215201] critical medium error, dev nvme0n1, sector 519064 op 0x1:(WRITE) flags 0x800 phys_seg 2 prio class 0
[  235.215208] Buffer I/O error on dev nvme0n1p3, logical block 6259, lost async page write
[  235.215215] Buffer I/O error on dev nvme0n1p3, logical block 6260, lost async page write
[  235.215223] nvme0n1: I/O Cmd(0x1) @ LBA 526592, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215230] critical medium error, dev nvme0n1, sector 526592 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[  235.215237] Buffer I/O error on dev nvme0n1p3, logical block 7200, lost async page write
[  235.215245] nvme0n1: I/O Cmd(0x1) @ LBA 526608, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215251] critical medium error, dev nvme0n1, sector 526608 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[  235.215258] Buffer I/O error on dev nvme0n1p3, logical block 7202, lost async page write
[  235.215266] nvme0n1: I/O Cmd(0x1) @ LBA 541952, 16 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215273] critical medium error, dev nvme0n1, sector 541952 op 0x1:(WRITE) flags 0x800 phys_seg 2 prio class 0
[  235.215279] Buffer I/O error on dev nvme0n1p3, logical block 9120, lost async page write
[  235.215286] Buffer I/O error on dev nvme0n1p3, logical block 9121, lost async page write
[  235.215294] nvme0n1: I/O Cmd(0x1) @ LBA 545624, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215300] critical medium error, dev nvme0n1, sector 545624 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[  235.215354] nvme0n1: I/O Cmd(0x1) @ LBA 568840, 16 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215362] critical medium error, dev nvme0n1, sector 568840 op 0x1:(WRITE) flags 0x800 phys_seg 2 prio class 0
[  235.215374] nvme0n1: I/O Cmd(0x1) @ LBA 592640, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  235.215381] critical medium error, dev nvme0n1, sector 592640 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0

[  282.722281] nvme0n1: I/O Cmd(0x1) @ LBA 1900990464, 8 blocks, I/O Error (sct 0x1 / sc 0x82)

[  282.722308] critical medium error, dev nvme0n1, sector 1900990464 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0

[  282.722329] Buffer I/O error on dev nvme0n1p5, logical block 0, lost sync page write
[  282.722357] EXT4-fs (nvme0n1p5): I/O error while writing superblock
[  282.722378] EXT4-fs (nvme0n1p5): mount failed
[  282.722578] Aborting journal on device nvme0n1p5-8.
[  282.722825] nvme0n1: I/O Cmd(0x1) @ LBA 1947389952, 8 blocks, I/O Error (sct 0x1 / sc 0x82) 
[  282.722849] critical medium error, dev nvme0n1, sector 1947389952 op 0x1:(WRITE) flags 0x29800 phys_seg 1 prio class 0
[  282.722869] Buffer I/O error on dev nvme0n1p5, logical block 5799936, lost sync page write
[  282.722905] JBD2: I/O error when updating journal superblock for nvme0n1p5-8.

[ 3831.012459] nvme0n1: I/O Cmd(0x1) @ LBA 264192, 1 blocks, I/O Error (sct 0x1 / sc 0x82) 
[ 3831.012468] critical medium error, dev nvme0n1, sector 264192 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[ 3831.012472] Buffer I/O error on dev nvme0n1p2, logical block 0, lost sync page write
[ 3831.078990] nvme0n1: I/O Cmd(0x1) @ LBA 264192, 1 blocks, I/O Error (sct 0x1 / sc 0x82) 
[ 3831.079001] critical medium error, dev nvme0n1, sector 264192 op 0x1:(WRITE) flags 0x800 phys_seg 1 prio class 0
[ 3831.079008] Buffer I/O error on dev nvme0n1p2, logical block 0, lost sync page write

Das kann ich wieder mal nicht interpretieren. Merkwürdig ist, dass nach dem Ausdruck zwar der blinkende Cursor sich wieder zeigt, aber kein weiterer Befehl angenommen wird.
Das erst mal als Zwischenbericht. Sobald ich dazukomme, werde ich mit ddrescue weiter arbeiten. Ich werde berichten...

Beantwortet 1 Jun von Anonym

Hallo SpoG,

jetzt kommt eine wichtige Korrektur bzw. Präzisierung: Die neuen dmesg-Meldungen sind kein harmloses Begleitgeräusch. Sie zeigen, dass Linux Schreibzugriffe auf die angeschlagene SSD versucht hat — und genau das darf bei einer Datenrettung eigentlich nicht passieren. Die entscheidenden Wörter sind WRITE, lost sync page write, writing superblock und updating journal superblock .

Das bedeutet: Die SSD wurde nicht nur gelesen, sondern Linux hat beim Mountversuch versucht, Dateisystem-Metadaten zu aktualisieren. Besonders EXT4 macht das sehr gern über sein Journal. Bei einer gesunden Platte ist das normal; bei einer Rettungsplatte ist es gefährlich.

Die gute Nachricht: Der Laptop deiner Tochter ist inzwischen praktisch entlastet. Mit neuer SSD läuft Windows 11 fehlerfrei, und Tests zeigen keine Fehler. Damit ist sehr wahrscheinlich nicht das Motherboard der Übeltäter, sondern ausschließlich die alte 1-TB-SSD .

Jetzt würde ich so antworten:

Hallo SpoG,

das ist ein sehr wichtiger Zwischenstand — und diesmal liefert die Ausgabe eine klare neue Erkenntnis.

Die wichtigste Information steckt in diesen Teilen:

op 0x1:(WRITE)
critical medium error
lost sync page write
I/O error while writing superblock
JBD2: I/O error when updating journal superblock

Das bedeutet nicht einfach nur „Lesefehler“.

Das bedeutet:
Linux hat versucht, auf die defekte SSD zu schreiben.

Und genau das ist bei einer Datenrettung unbedingt zu vermeiden.

Besonders kritisch ist diese Stelle:

EXT4-fs (nvme0n1p5): I/O error while writing superblock
JBD2: I/O error when updating journal superblock

Das heißt:
Die EXT4-Partition wurde offenbar nicht nur gelesen, sondern das System wollte beim Mounten das Journal bzw. den Superblock aktualisieren.

Bei EXT4 ist das normal, wenn ein Dateisystem nicht sauber ausgehängt wurde.
Für Datenrettung ist es aber ungünstig, weil jeder Schreibversuch auf der Schad-SSD weitere Metadaten verändern kann.

Darum ab jetzt bitte als oberste Regel:

Nicht mehr im Dateimanager anklicken.
Nicht mehr mounten.
Nicht mehr Testprogramme starten, die „reparieren“ könnten.
Nicht mehr versuchen, Partitionen direkt zu öffnen.

Nur noch lesen.

Warum nimmt das Terminal nach `dmesg -w` keinen Befehl mehr an?

Das ist normal.

Der Befehl:

sudo dmesg -w

läuft dauerhaft weiter und wartet auf neue Kernelmeldungen.

Das Terminal ist dadurch nicht „kaputt“.
Es ist nur mit dmesg beschäftigt.

Beenden mit:

Strg + C

Danach erscheint wieder die normale Eingabeaufforderung.

Was bedeuten die roten Zeilen fachlich?

Die SSD meldet echte Medium-Errors.

Beispiel:

critical medium error, dev nvme0n1

Das ist keine Windows-Macke und kein bloßer NTFS-Fehler mehr.

Das kommt direkt aus der Linux-Kernel-/NVMe-Schicht.

Besonders wichtig ist:

sct 0x1 / sc 0x82

Das ist eine NVMe-Fehlerkennung. Vereinfacht gesagt:
Der NVMe-Controller meldet, dass bestimmte Medienzugriffe nicht korrekt bedient werden können.

In Kombination mit:

Critical Warning 0x08

aus den früheren SMART-Werten passt das sehr gut zu einem internen SSD-Problem.

Also:
Controller, Flash Translation Layer oder NAND-/Mappingbereich der SSD.

Nicht primär Mainboard.
Nicht RAM.
Nicht Windows.
Nicht Linux.

Warum ist das Motherboard jetzt fast entlastet?

Du hast inzwischen einen sehr wichtigen Gegenbeweis erbracht:

Eine neue SSD läuft im Laptop deiner Tochter mit Windows 11 fehlerfrei.
Auch Testprogramme zeigen keine Fehler.

Damit ist die These:

„Das Mainboard beschädigt SSDs“

deutlich unwahrscheinlicher geworden.

Wenn das Mainboard oder die Spannungsversorgung grundsätzlich gefährlich wären, würde man mit der neuen SSD vermutlich wieder Instabilitäten, I/O-Fehler, SMART-Probleme oder Installationsabbrüche sehen.

Das passiert aber offenbar nicht.

Daher ist die vernünftige Schlussfolgerung:

Der Laptop ist wahrscheinlich wieder verwendbar.
Die alte 1-TB-SSD ist das Problem.

Jetzt kommt der entscheidende Sicherheits-Schritt

Bevor du weiter mit ddrescue arbeitest, würde ich die alte SSD im Live-Linux sofort schreibgeschützt setzen.

Zuerst alles aushängen, falls irgendetwas automatisch gemountet wurde:

sudo umount /dev/nvme0n1p1 2>/dev/null
sudo umount /dev/nvme0n1p2 2>/dev/null
sudo umount /dev/nvme0n1p3 2>/dev/null
sudo umount /dev/nvme0n1p4 2>/dev/null
sudo umount /dev/nvme0n1p5 2>/dev/null

Dann die komplette NVMe und ihre Partitionen read-only setzen:

sudo blockdev --setro /dev/nvme0n1
sudo blockdev --setro /dev/nvme0n1p1
sudo blockdev --setro /dev/nvme0n1p2
sudo blockdev --setro /dev/nvme0n1p3
sudo blockdev --setro /dev/nvme0n1p4
sudo blockdev --setro /dev/nvme0n1p5

Kontrolle:

lsblk -o NAME,SIZE,RO,TYPE,MOUNTPOINTS

In der Spalte RO sollte bei nvme0n1 und den Partitionen eine 1 stehen.

Erst wenn das so ist, weiterarbeiten.

Wichtig: ddrescue darf trotzdem lesen

Read-only bedeutet:
Das System darf nicht auf die Schad-SSD schreiben.

ddrescue darf aber weiterhin von ihr lesen.

Geschrieben wird nur auf die externe Rettungsplatte.

Der nächste ddrescue-Test im anderen Rechner wäre dann:

sudo ddrescue -f -n /dev/nvme0n1 /media/mint/MyPassport_3TB/ssd_anderer_rechner.img /media/mint/MyPassport_3TB/ssd_anderer_rechner.log

Falls genug Platz vorhanden ist, neue Image-Datei nehmen.
Falls nicht, vorher bewusst entscheiden, ob man mit dem vorhandenen Image weiterarbeitet.

Was wir mit diesem ddrescue-Lauf prüfen

Es gibt jetzt zwei mögliche Ergebnisse:

Fall 1:
ddrescue stoppt wieder bei ca. 61 GB.

Dann ist ziemlich sicher:
Die Grenze sitzt in der SSD selbst.
Der andere Rechner ändert nichts Grundsätzliches.

Fall 2:
ddrescue kommt deutlich über 61 GB hinaus.

Dann war der andere Rechner ein Gewinn.
Dann unbedingt laufen lassen und nicht unterbrechen.

Das wäre dann die Chance, weitere Teile der fehlenden ~929 GB zu retten.

PhotoRec direkt auf der SSD?

Ich wäre damit weiterhin vorsichtig.

PhotoRec auf dem vorhandenen Image war richtig und erfolgreich.
Dort konnte nichts mehr an der Original-SSD beschädigt werden.

PhotoRec direkt auf der defekten SSD ist riskanter, weil es viele Such- und Lesezugriffe erzeugt. Wenn die SSD intern instabil ist, kann das den Controller stärker belasten als ein sauberer ddrescue-Lauf.

Deshalb bleibt die Reihenfolge:

SSD schreibgeschützt setzen.
Mit ddrescue so viel wie möglich in ein Image holen.
PhotoRec/TestDisk auf dem Image verwenden.
Direktes PhotoRec auf der SSD nur als spätere Notlösung.

Noch ein sehr wichtiger Punkt

Die bisherigen PhotoRec-Erfolge sind Gold wert.

Die bereits geretteten 35 GB solltest du sofort zusätzlich sichern, idealerweise auf ein zweites Medium.

Denn das sind keine theoretischen Daten mehr, sondern echte gerettete Familien- und Geschäftsdaten.

Also bitte nicht nur auf derselben MyPassport liegen lassen, falls darauf weiter experimentiert wird.

Meine aktuelle Einschätzung

Jetzt ist der Fall klarer als vorher:

Der Laptop ist sehr wahrscheinlich in Ordnung.
Die alte 1-TB-SSD ist eindeutig krank.
Die neue dmesg-Ausgabe zeigt echte Medium-/I/O-Fehler.
Linux hat leider Schreibversuche auf der SSD unternommen, deshalb jetzt unbedingt read-only arbeiten.
Der nächste sinnvolle Schritt ist ein sauberer ddrescue-Lauf im anderen Rechner, aber erst nach gesetztem Schreibschutz.

Kurz gesagt:

Nicht mehr mounten.
Nicht mehr anklicken.
Nicht mehr reparieren.
Schreibschutz setzen.
Dann ddrescue.
Danach PhotoRec/TestDisk nur auf dem Image.

Das ist jetzt die professoral saubere Linie.

Beantwortet 1 Jun von Anonym

Beantwortet 1 Jun von spog Mitglied (312 Punkte)
Bearbeitet 2 Jun von spog

Beantwortet 2 Jun von Anonym

Beantwortet 3 Jun von spog Mitglied (312 Punkte)
Bearbeitet 3 Jun von spog

Hallo Anonym,

ich habe mich jetzt mit HDClone befasst und bin damit aber auch nicht weiter als mit ddrescue gekommen.

Immerhin habe ich unter deiner Anleitung ca. 100.000 Dateien, die allerdings nur einen Bruchteil der zu rettenden Datenmenge ausmacht, sichergestellt. Diese 100.000 Dateien sind bereits ein Filterergebnis! Sicher kann man noch genauer filtern, damit eine handhabbare Menge entsteht. Wenn die Rettung der Daten von über 900 GB noch gelänge, wäre das toll. Allerdings liegen die gerettenden Dateien dann nicht in einer bekannten Ordnungsstruktur vor. Zudem kann nur aus der Dateierweiterung und der Dateigröße auf Brauchbarkeit geschlossen werden; der Dateiname selbst sagt nichts aus. Angesichts der dann zu erwartenden Dateimenge frage ich mich, wie hoch der Leidensdruck sein muss, diese immense Datenmenge nach Brauchbarkeit zu durchforsten?

Darüber hinaus ist der bereits angefallene Zeitaufwand von dir und mir fragwürdig groß geworden. Deshalb mache ich an dieser Stelle einen Schlussstrich. Ich habe viel (durch dich) gelernt. Es sind 100.000 Dateien in 510 Ordners "Ernteergebnis" angefallen, die ich meiner Tochter übergeben werde. Wir stehen tief in deiner Schuld! Insgeheim hatte ich gehofft, dass jemand mit dem Pseudonym "Anonym" ja irgendwo wohnen muss und wünschenswerterweise im Sachsenlande sein zuhause hat. Dann nämlich stünden die Chancen nicht schlecht, dich wenigstens mal zum Essen auszuführen. Mit deinem letzten Gruß "Grüzli aus dem Switzerländli" ist auch diese Hoffnungsblase geplatzt. So bleibt mir nur noch einmal herzlich DANKE zu sagen.

SpoG

Deine Antwort

Seite:

SSD defekt + Datenrettung

40 Antworten

Und jetzt zu deinem eigentlichen Plan:

Warum ich den Ausbau der SSD inzwischen klar befürworten würde

Warum ein anderer Rechner helfen kann

Deshalb: Ja, ich würde genau das tun.

Warum nimmt das Terminal nach dmesg -w keinen Befehl mehr an?

Was bedeuten die roten Zeilen fachlich?

Warum ist das Motherboard jetzt fast entlastet?

Jetzt kommt der entscheidende Sicherheits-Schritt

Wichtig: ddrescue darf trotzdem lesen

Was wir mit diesem ddrescue-Lauf prüfen

PhotoRec direkt auf der SSD?

Noch ein sehr wichtiger Punkt

Meine aktuelle Einschätzung

Deine Antwort

Beliebteste Themen

Deshalb:
Ja, ich würde genau das tun.

Warum nimmt das Terminal nach `dmesg -w` keinen Befehl mehr an?