Denic: Abgebrochener Kopiervorgang killte .de-Domains
Von Bernd Kling am 16. Mai 2010
Der Betreiber der Top-Level-Domain „.de“ weiß ein paar Tage später, was passiert ist
DNS-Probleme mit den Nameservern sorgten am Mittwoch für „stundenlange Sendepause im Internet“ und „Web-Chaos“. Nicht nur Websites mit der Domainendung .de waren am 12. 5. 2010 ab etwa 13:30 Uhr nicht mehr auffindbar, sondern auch E-Mails konnten nicht versandt und empfangen werden. Die Behebung des Fehlers durch ein Notfallteam dauerte laut Denic gut zwei Stunden bis 15:45, aufgrund zwischengespeicherter Daten bei Providern zogen sich die Nachwirkungen noch um einige Stunden länger hin.
Die Denic bedauere diesen Vorfall, erklärte der Betreiber der Top-Level-Domain „.de“ dazu zunächst nur knapp. Der Fehler sei identifiziert, das Problem behoben, Weitere Details aber sollten erst nach einer eingehenden Analyse folgen. Das hat gedauert, aber inzwischen verriet die Denic in umschweifigen Formulierungen den Ablauf.
Demnach wurde ein Kopiervorgang unterbrochen, was bei der regelmäßigen Aktualisierung der Nameservice-Daten dazu führte, dass eine nicht vollständige Zonendatei auf 12 der 16 Service-Standorte übertragen wurden. Als der Fehler bemerkt wurde, schaltete „das unmittelbar eingesetzte Notfallteam“ ab 14:20 Uhr alle fehlerhaft antwortenden Standorte ab.
Die genaue Fehlerursache wurde zu diesem Zeitpunkt jedoch noch nicht erkannt. Dazu kam eine hohe Last für die Registrierungssysteme durch eine ungewöhnlich hohe Zahl von Versuchen, vermeintlich freie Domains zu registrieren, da die Nameserver sie als nicht existent meldeten – sie wurden deshalb vorübergehend angehalten.
Die abgeschalteten Standorte wurden nacheinander mit einer vollständigen Zonendatei versorgt und wieder in den Verbund der Nameserver aufgenommen, bis gegen 15:45 Uhr – nach vollständiger Neuverteilung und Neustarts aller betroffenen Servicestandorte – zumindest alle Denic-Server wieder richtige Antworten gaben. Mehr oder weniger zeitverzögert folgten die gecachten DNS-Dienste der Provider.
Wie aus den technischen Details hervorgeht, brach der Kopiervorgang ab, nachdem nur etwa ein Drittel der Daten übertragen waren – und weitere Sicherungen sprangen nicht ein: „Zwar sollte auch dieser Vorgang abgesichert sein, der Sicherungsmechanismus hat den Fehler allerdings nicht korrekt ausgewertet, so dass im Effekt der Kopierfehler nicht entdeckt und der Weiterverarbeitungsprozess nicht angehalten wurde.“
Laut Denic stand der Fehler „in keinem direkten Zusammenhang“ mit dem am Dienstag zuvor durchgeführten Umzug des Rechenzentrumsbetriebs für die Registrierungsdienste von Amsterdam nach Frankfurt.