Discussion:
"Hard Error" in Tapeware
(zu alt für eine Antwort)
Dieter Guthmann
2009-07-15 08:00:55 UTC
Permalink
Hallo,

wir haben hier immer noch einen Netware 4.11-Server am Laufen, der mit
TapeWare 6.2 bisher immer brav seine Bänder gesichert hat. Ein Ersatz
für den Server ist natürlich schon in Planung, nur schießt ein Problem
mit der Bandsicherung da jetzt trotzdem etwas quer :(.

Das Laufwerk ist nicht ganz so alt wie der Server ;-) - es handelt
sich um ein HP Ultrium-1 LTO-Laufwerk an einem LSI-Logic U160
Controller.
Das hat jetzt mehrere Jahre einwandfrei funktioniert, aber seit
einiger Zeit brechen vornehmlich größere Backup-Jobs mit der Meldung
"TapeAlert - Warning - Hard Error"
"The operation has stopped because an error has occurred while reading
or writing which the drive cannot correct."
Danach kommt gleich eine weitere Meldung
"Device select timeout"
"Attempt to select a device on the SCSI bus has timed out. Either the
device is not responding, is turned off, is disconnected or selection
is being attempted with the wrong SCSI id."

Zu Anfang hatte ich das SCSI-Kabel im Verdacht - im großen und ganzen
schien es so, als hätte der Austausch des Kabels die Situation auch
verbessert, aber es scheint doch wieder häufiger passieren :-(
Irgendwie werde ich aus den Meldungen auch nicht so ganz schlau...
soll das jetzt eher ein Fehler auf der Bandlaufwerks-Hardwareebene
sein ("drive cannot correct") oder auf der SCSI-Ebene?
Kann es sein, daß das Bandlaufwerk gerade über den Jordan geht? Kann
ich das irgendwie einfach und zuverlässig testen?

Danke.

Gruß,
Dieter

Follow-Ups in: de.comp.hardware.laufwerke.misc
Mirko Guldner
2009-07-15 08:22:54 UTC
Permalink
Hallo Dieter,

das könnte auch an den Bändern liegen. Passiert das auch mit neuen
Bändern? Ich nehme mal an, dass du das Laufwerk regelmässig mit dem
Reinigungsband gefüttert hast?

Gruß,
Mirko
Post by Dieter Guthmann
Hallo,
wir haben hier immer noch einen Netware 4.11-Server am Laufen, der mit
TapeWare 6.2 bisher immer brav seine Bänder gesichert hat. Ein Ersatz
für den Server ist natürlich schon in Planung, nur schießt ein Problem
mit der Bandsicherung da jetzt trotzdem etwas quer :(.
Das Laufwerk ist nicht ganz so alt wie der Server ;-) - es handelt
sich um ein HP Ultrium-1 LTO-Laufwerk an einem LSI-Logic U160
Controller.
Das hat jetzt mehrere Jahre einwandfrei funktioniert, aber seit
einiger Zeit brechen vornehmlich größere Backup-Jobs mit der Meldung
"TapeAlert - Warning - Hard Error"
"The operation has stopped because an error has occurred while reading
or writing which the drive cannot correct."
Danach kommt gleich eine weitere Meldung
"Device select timeout"
"Attempt to select a device on the SCSI bus has timed out. Either the
device is not responding, is turned off, is disconnected or selection
is being attempted with the wrong SCSI id."
Zu Anfang hatte ich das SCSI-Kabel im Verdacht - im großen und ganzen
schien es so, als hätte der Austausch des Kabels die Situation auch
verbessert, aber es scheint doch wieder häufiger passieren :-(
Irgendwie werde ich aus den Meldungen auch nicht so ganz schlau...
soll das jetzt eher ein Fehler auf der Bandlaufwerks-Hardwareebene
sein ("drive cannot correct") oder auf der SCSI-Ebene?
Kann es sein, daß das Bandlaufwerk gerade über den Jordan geht? Kann
ich das irgendwie einfach und zuverlässig testen?
Danke.
Gruß,
Dieter
Follow-Ups in: de.comp.hardware.laufwerke.misc
Dieter Guthmann
2009-07-16 09:19:54 UTC
Permalink
Hallo Mikro,
Post by Mirko Guldner
das könnte auch an den Bändern liegen. Passiert das auch mit neuen
Bändern? Ich nehme mal an, dass du das Laufwerk regelmässig mit dem
Reinigungsband gefüttert hast?
Ich konnte jetzt eigentlich keinen Zusammenhang mit bestimmten Bändern
feststellen.
Ich habe vorhin ein Diagnose-Utility auf der HP-Homepage gefunden -
das werde ich in nächster Zeit mal auf's Bandlaufwerk loslassen,
vielleicht erfahre ich ja dann was los ist.

Direkt regelmäßig wurde es nicht gereinigt... eben immer dann wenn das
Reinigungs-LED sich gemeldet hat... was aber in der Tat nicht
besonders oft war.

Gruß,
Dieter
Michael Baeuerle
2009-07-15 10:15:20 UTC
Permalink
[HP Ultrium-1 LTO-Laufwerk an einem LSI-Logic U160 Controller]
Zu Anfang hatte ich das SCSI-Kabel im Verdacht - im großen und ganzen
schien es so, als hätte der Austausch des Kabels die Situation auch
verbessert, aber es scheint doch wieder häufiger passieren :-(
Irgendwie werde ich aus den Meldungen auch nicht so ganz schlau...
soll das jetzt eher ein Fehler auf der Bandlaufwerks-Hardwareebene
sein ("drive cannot correct") oder auf der SCSI-Ebene?
Kann es sein, daß das Bandlaufwerk gerade über den Jordan geht? Kann
ich das irgendwie einfach und zuverlässig testen?
"Device select timeout" ist eindeutig, das bedeutet dass das Tape
angesprochen wurde und nicht geantwortet hat. Das darf im Normalfall nie
auftreten, auch wenn das Medium oder der Kopf kaputt waeren. Wenn es
nicht am Kabel liegt (wurde ja schon gewechselt), dann waere noch die
Stromversorgung des Tapes einen Blick wert. Falls es da einen
Wackelkontakt gibt koennte das Tape durch Spannungseinbruch in den Reset
gezwungen werden. Waehrend es bootet ist es dann eine Zeit lang nicht
ansprechbar (In der SCSI spec steht fuer "PowerOn to Selection" maximal
10s, aber nur als Empfehlung und nicht als Pflicht).

"TapeAlert - Warning - Hard Error" ist nicht so eindeutig. Das koennte
jetzt einfach ein Folgefehler sein oder es ist der SCSI sense key
"Hardware error" gemeint. Letzterer wird aus dem Tape ausgelesen und
bedeutet, dass dieses selbst der Meinung ist ein Hardwareproblem zu
haben.


Micha
Dieter Guthmann
2009-07-16 13:30:00 UTC
Permalink
Hallo Michael,
Post by Michael Baeuerle
"Device select timeout" ist eindeutig, das bedeutet dass das Tape
angesprochen wurde und nicht geantwortet hat. Das darf im Normalfall nie
auftreten, auch wenn das Medium oder der Kopf kaputt waeren. Wenn es
nicht am Kabel liegt (wurde ja schon gewechselt), dann waere noch die
Stromversorgung des Tapes einen Blick wert. Falls es da einen
Wackelkontakt gibt koennte das Tape durch Spannungseinbruch in den Reset
gezwungen werden. Waehrend es bootet ist es dann eine Zeit lang nicht
ansprechbar (In der SCSI spec steht fuer "PowerOn to Selection" maximal
10s, aber nur als Empfehlung und nicht als Pflicht).
"TapeAlert - Warning - Hard Error" ist nicht so eindeutig. Das koennte
jetzt einfach ein Folgefehler sein oder es ist der SCSI sense key
"Hardware error" gemeint. Letzterer wird aus dem Tape ausgelesen und
bedeutet, dass dieses selbst der Meinung ist ein Hardwareproblem zu
haben.
Die Fehler treten in der Reihenfolge "Hard Error", "Device select
Timeout".
Scheinbar reagiert das Laufwerk nach Auftreten des "Hard Errors" nicht
mehr und das führt dann zum "Device select Timeout".
Das mit der Stromversorgung ist ein guter Tipp - das werde ich
demnächst mal kontrollieren.

Gruß,
Dieter
Ronald Scheller
2009-07-17 06:41:48 UTC
Permalink
Post by Dieter Guthmann
Kann es sein, daß das Bandlaufwerk gerade über den Jordan geht? Kann
ich das irgendwie einfach und zuverlässig testen?
Mit dem Laufwerk an einer Workstation und den "HP Library and Tape
Tools" sollte sich einiges testen lassen.
Das Programm gibt es zwar auch für Netware 5-6.5 aber bei mir crasht da
der Server.
Das Programm ist kostenlos von den HP.com zu bekommen.
http://h20000.www2.hp.com/bizsupport/TechSupport/DriverDownload.jsp?prodNameId=406731&lang=de&cc=de&taskId=135&prodTypeId=12169&prodSeriesId=406729

Eine gute Idee bei schleichendem Ausfall von älterer Hardware ist immer
ein Blick auf die Elkos, vor allem im Netzteil / Stromversorgungs-
baugruppen, wegen der "Elko Seuche".

Loading...