Discussion:
IBM LTO-3 macht immer mal wieder Heckmeck
(zu alt für eine Antwort)
Marcel Mueller
2019-03-10 14:05:10 UTC
Permalink
Hallo,

ich habe eine Dell PowerVault 124T mit IBM LTO-Laufwerk. Dieses bricht
manchmal bei Schreibvorgängen mit I/O Error ab. Wenn das einmal passiert
ist, wiederholt sich der Fehler oft. Also nach wenigen GB Daten kommt es
wieder zu einem Schreibfehler. Das tritt auch auf, wenn ich ein anderes
Band benutze. Mal gehen 2GB, mal 6,7GB und mal auch nur 0,3GB.

Erholung gibt es nur, wenn ich alles einmal aus und wieder einschalte.
Manchmal kommt der Fehler danach wieder. Manchmal nicht und es läuft
wieder, so wie jetzt die letzten 3 Bänder.

Die Diagnosefunktion meint dazu TAFlag 30. In der Doku steht dazu
nichtssagend: "The drive has a hardware fault
that requires reset to recover."

Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape). Letzteres
habe ich zugegebenermaßen einigermaßen ignoriert. Das Laufwerk wird nur
alle vielleicht 2 Monate für zusätzliche Backupgenerationen genutzt. Und
ich weiß gar nicht, ob das Teil eine Echtzeituhr hat, anhand der es
feststellen könnte, wann die Zeit rum ist - gefühlt nein.

Wenn es funktioniert gibt es auch keine Anzeichen für schlechte
Schreibqualität. Die Bänder lassen sich nahezu durchweg bis über die
Nennkapazität beschreiben (ohne Komprimierung). Es werden also nicht in
signifikantem Umfang Blöcke doppelt geschrieben. Lesefehler hatte ich
noch nie.

Irgendwelche Ideen, woran das liegen könnte?
Verunreinigung scheint mir nicht plausibel durch einen Power-Zyklus heilbar.

Das Laufwerk ist Modell IBM ULTRIUM-TD3, Firmware Revision 93GM.



Marcel
Michael Bäuerle
2019-03-10 14:34:04 UTC
Permalink
Post by Marcel Mueller
[...]
Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape).
Letzteres habe ich zugegebenermaßen einigermaßen ignoriert. Das
Laufwerk wird nur alle vielleicht 2 Monate für zusätzliche
Backupgenerationen genutzt. Und ich weiß gar nicht, ob das Teil eine
Echtzeituhr hat, anhand der es feststellen könnte, wann die Zeit rum
ist - gefühlt nein.
Zu deinem Problem kann ich leider nichts beitragen.

Zum Thema Reinigung würde mich aber wundern, wenn da in absoluten
Stunden via RTC gerechnet wird. Relevant für die Reinigung ist doch
nur die Zeit, in der das Laufwerk tatsächlich aktiv ist (also ein
Band durchläuft). Das lässt sich auch ohne RTC mitzählen und dann
im EEPROM speichern.
Dietz Proepper
2019-03-20 10:14:02 UTC
Permalink
Post by Marcel Mueller
Hallo,
ich habe eine Dell PowerVault 124T mit IBM LTO-Laufwerk. Dieses bricht
manchmal bei Schreibvorgängen mit I/O Error ab. Wenn das einmal passiert
ist, wiederholt sich der Fehler oft. Also nach wenigen GB Daten kommt es
wieder zu einem Schreibfehler. Das tritt auch auf, wenn ich ein anderes
Band benutze. Mal gehen 2GB, mal 6,7GB und mal auch nur 0,3GB.
Das Teil ist vmtl. ca. 12-15 a alt?
Post by Marcel Mueller
Die Diagnosefunktion meint dazu TAFlag 30. In der Doku steht dazu
nichtssagend: "The drive has a hardware fault
that requires reset to recover."
Oh. Eine zutreffende Fehlermeldung. Und das von IBM ;-).
Post by Marcel Mueller
Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape). Letzteres
habe ich zugegebenermaßen einigermaßen ignoriert. Das Laufwerk wird nur
alle vielleicht 2 Monate für zusätzliche Backupgenerationen genutzt. Und
ich weiß gar nicht, ob das Teil eine Echtzeituhr hat, anhand der es
feststellen könnte, wann die Zeit rum ist - gefühlt nein.
Würde ich nicht darauf wetten. Abgesehen davon - wie wäre es, dem Rat
des Laufwerks zu folgen? ;-)
Post by Marcel Mueller
Wenn es funktioniert gibt es auch keine Anzeichen für schlechte
Schreibqualität. Die Bänder lassen sich nahezu durchweg bis über die
Nennkapazität beschreiben (ohne Komprimierung). Es werden also nicht in
signifikantem Umfang Blöcke doppelt geschrieben. Lesefehler hatte ich
noch nie.
Mittels smartctl solltest Du die Fehlerzähler auslesen können. Bei
meinen Laufwerken sieht das in etwa so aus:

----------------
***@darth:/home/dietz# smartctl -a /dev/st0
[...]
Vendor: HP
Product: Ultrium 3-SCSI
Revision: G65H

Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 3 0 0 0 3 0.000 0
write: 292 0 0 0 326 0.000 0
----------------

Auf das Band dürften seit dem Laden ca. 150 GB geschrieben worden
sein. Ist angeblich bei älterer Hardware so üblich und kein Grund
zur Beunruhigung.
Ich vermute, dass bei Dir im Problemfall die Zahl der Fehler
drastisch höher liegt.
Post by Marcel Mueller
Irgendwelche Ideen, woran das liegen könnte?
Wie geschrieben, erste Vermutung, tatsächlich Verschmutzung. Zweite, die
Hardware hat einen Treffer. Wobei die Geräte üblicherweise für "Ewigkeit+
vier Jahre" ausgelegt sind.
Post by Marcel Mueller
Verunreinigung scheint mir nicht plausibel durch einen Power-Zyklus heilbar.
Naja, irgendwann ist vielleicht ein threshold überschritten und das
Laufwerk sagt, "ich schalt' mich ab".

Ich würde erst mal ein Reinigungstape nutzen. Wenn das nicht hilft,
Ersatzgerät (ebay) oder reparieren lassen. Ob sich das rentiert
musst Du selber wissen.
--
CASE NIGHTMARE GREEN
Marcel Mueller
2019-03-20 17:41:51 UTC
Permalink
Post by Dietz Proepper
Das Teil ist vmtl. ca. 12-15 a alt?
Keine Ahnung. Es war gebraucht und läuft hier auch schon wieder einige
Jahre.
Post by Dietz Proepper
Post by Marcel Mueller
Die Diagnosefunktion meint dazu TAFlag 30. In der Doku steht dazu
nichtssagend: "The drive has a hardware fault
that requires reset to recover."
Oh. Eine zutreffende Fehlermeldung. Und das von IBM ;-).
Naja, zumindest ist sie nicht wirklich hilfreich.
Post by Dietz Proepper
Post by Marcel Mueller
Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape). Letzteres
habe ich zugegebenermaßen einigermaßen ignoriert. Das Laufwerk wird nur
alle vielleicht 2 Monate für zusätzliche Backupgenerationen genutzt. Und
ich weiß gar nicht, ob das Teil eine Echtzeituhr hat, anhand der es
feststellen könnte, wann die Zeit rum ist - gefühlt nein.
Würde ich nicht darauf wetten. Abgesehen davon - wie wäre es, dem Rat
des Laufwerks zu folgen? ;-)
Ja, muss ich mal machen. Ich kenne halt noch von DLT, dass Reinigen die
Lebensdauer des Laufwerks /verkürzt/. Die wollten halt auch Geld verdienen.
Post by Dietz Proepper
Post by Marcel Mueller
Wenn es funktioniert gibt es auch keine Anzeichen für schlechte
Schreibqualität. Die Bänder lassen sich nahezu durchweg bis über die
Nennkapazität beschreiben (ohne Komprimierung). Es werden also nicht in
signifikantem Umfang Blöcke doppelt geschrieben. Lesefehler hatte ich
noch nie.
Mittels smartctl solltest Du die Fehlerzähler auslesen können. Bei
Danke für den Tip. Mir war in keiner Weise klar, dass samrtctl mit den
Bändern etwas anfangen kann. Werde ich nächstes mal machen.
Post by Dietz Proepper
Auf das Band dürften seit dem Laden ca. 150 GB geschrieben worden
sein. Ist angeblich bei älterer Hardware so üblich und kein Grund
zur Beunruhigung.
Ich vermute, dass bei Dir im Problemfall die Zahl der Fehler
drastisch höher liegt.
Mal sehen.Im Moment ist die Kiste gerade aus.
Post by Dietz Proepper
Post by Marcel Mueller
Irgendwelche Ideen, woran das liegen könnte?
Wie geschrieben, erste Vermutung, tatsächlich Verschmutzung. Zweite, die
Hardware hat einen Treffer. Wobei die Geräte üblicherweise für "Ewigkeit+
vier Jahre" ausgelegt sind.
Deswegen habe ich das Zeug ja ;-)
Post by Dietz Proepper
Post by Marcel Mueller
Verunreinigung scheint mir nicht plausibel durch einen Power-Zyklus heilbar.
Naja, irgendwann ist vielleicht ein threshold überschritten und das
Laufwerk sagt, "ich schalt' mich ab".
Und der wird beim Power-Cycle zurückgesetzt?
Post by Dietz Proepper
Ich würde erst mal ein Reinigungstape nutzen. Wenn das nicht hilft,
Ersatzgerät (ebay) oder reparieren lassen. Ob sich das rentiert
musst Du selber wissen.
Reparieren ist sicherlich unwirtschaftlich. Die ganze Library hat nur
50€ gekostet.
Ersatz geht aber bestimmt irgendwie. Wobei sich da natürlich ein Upgrade
auf LTO-4 anbietet, was allerdings einen SAS-Controller erfordert, der
neben Kosten auch noch den Stromverbrauch poliert. Und den kann man
nicht abschalten wie die Library.
Und lange SAS-Kabel muss man auch erst mal haben. Das sind schon ein
paar Meter. Bei SCSI passen ja die internen Kabel auch extern, und davon
habe ich genug.


Marcel

Lesen Sie weiter auf narkive:
Loading...