Skip to main content Skip to page footer

Unser Support geht weiter als viele erwarten!

Erstellt von Danny Sternol | | Blog

Im Flying Circus betonen wir gerne und oft, dass der Schlüssel zu erfolgreichem Anwendungsbetrieb im persönlichen und konstruktiven Austausch zwischen allen Parteien liegt: gerade im Fehlerfall gilt dies ganz besonders.

Wie wichtig Kooperation, Kommunikation und Engagement anstelle von Schuldzuweisungen im Support-Fall sind zeigt ein aktuelles Ereignis, bei dem eine Netzwerkkomponente eines großen Glasfaser-Backbone-Betreibers am Standort Frankfurt diffuse und stochastische Verbindungsfehler bei einem unserer Kunden auslöste. Aber beginnen wir von vorne.

Am Mittwochabend (12.06.2024) erhielten wir eine erste Anfrage im Chat, ob wir von unserer Seite im Netzwerk Auffälligkeiten feststellen würden. Eine kurze Überprüfung unseres Monitoring ergab: alles arbeitet wie erwartet. Am Donnerstagmorgen erreichten uns weitere Meldungen des Kunden und wir konnten im Rahmen unserer Infrastruktur sehen, dass ausgehende Pakete von unseren Routern ins Internet weitergeleitet wurden, aber in einigen Fällen von der Gegenstelle nicht quittiert wurden. Um solch einem Problem auf die Schliche zu kommen, ist die beste Option in unserer Erfahrung, sich schnell mit allen beteiligten Parteien auszutauschen.

Also baten wir um Unterstützung auf Kundenseite, um unsere Erkenntnisse mit denen der dortigen Netzwerktechniker zusammentragen zu können. Unseren Infrastruktur- und Rechenzentrumsdienstleister haben wir ebenfalls direkt mit in die Fehlersuche involviert und erhielten mit den umfassenden Einblicken von unterschiedlichen Seiten schnell ein Gefühl für das anliegende Fehlerbild. Fehler in öffentlicher Internet-Infrastruktur lassen sich leider nicht generell vermeiden und sind in dieser Qualität schwer zu diagnostizieren. Es kristallisierte sich immer weiter eine fehlerhafte Netzwerkkomponente lokalisiert am DE-CIX in Frankfurt als mögliche Ursache heraus. Der DE-CIX spielt eine große Rolle im globalen Internetverkehr und ist der größte deutsche Internet-Austauschknoten. An solchen Knotenpunkten tauschen Internet Service Provider (ISPs), Content Delivery Networks (CDNs) und andere Netzwerkbetreiber Datenverkehr direkt untereinander aus und bilden aus ihren einzelnen Netzwerken so das öffentliche Internet.

Während unser Kunde parallel einen Support-Case bei seinem IP-Dienstleister eröffnete, arbeitete unser Team an einem Workaround, um das Routing des Traffics zu unserem Primär-Rechenzentrum in Oberhausen über unseren Standort Halle so umzuleiten, dass die mögliche problematische Hardwarekomponente in Frankfurt aus der Gleichung genommen werden konnte. Zeitgleich erreichten uns aus informellen Kontakten über die DENOG mehrere Hinweise, die das von uns diagnostizierte Fehlerbild bestätigten. Die DENOG (German Network Operators Group) ist eine Gemeinschaft von Fachleuten, die im Bereich Netzwerkbetrieb und Internetinfrastruktur arbeiten und Wissen sowie Erfahrungen unter einander austauschen.

Am Donnerstag (13.06.2024) gegen 15 Uhr kurz vor dem Rollout unseres Workarounds erreichten uns erste Meldungen, dass die fehlerhafte Komponente in Frankfurt scheinbar getauscht und der anliegende Fehler beseitigt wurde.

Warum schreiben wir über diesen Fehlerfall? Weil es uns wichtig ist, zu kommunizieren, dass die fehlerfreie Funktion sowie die Erreichbarkeit der Anwendung für Endkunden die oberste Priorität für uns ist. Auch wenn ein Fehler nicht in unserem Einflussbereich aufgetreten ist, übernehmen wir die Initiative gemeinsam und aktiv nach einer Lösung für das anliegende Problem zu suchen. Diese Herangehensweise zur Fehlerbehebung ist in vielen Managed Service IT-Dienstleistung leider nicht der Standard. Oftmals kann die Problemlösung selber in einem solchen Fall nur mit kooperativer Zusammenarbeit aller Beteiligten erfolgen. Der gemeinsame, professionell fokussierte Austausch zwischen Entwickler*innen, Kunden*innen, Dienstleistern und uns ist ab der ersten Minute fester Bestandteil unserer Arbeitsweise. Auch und insbesondere dann, wenn es einmal nicht so läuft wie geplant!

Zurück