Single Point of Failure: was das Bahn-Chaos uns lehrt

Ich sass heute Nacht im Zug. Der fuhr nicht.

Gestern Abend ging in ganz Deutschland nichts mehr. Kein ICE, keine Regionalbahn, kein Metronom. Tausende standen auf den Bahnsteigen, manche kamen gerade vom Konzert, andere von der Kieler Woche, und alle hatten dasselbe Problem. Es ging nicht weiter. Der Grund war kein Sturm und kein Unfall. Es war ein Funksystem.

Ein Funksystem, und das ganze Land steht

GSM-R heisst das Ding. Global System for Mobile Communications, Railway. Über dieses Netz reden Lokführer und Leitstellen miteinander, sie geben Strecken frei, setzen Notrufe ab, halten den Betrieb zusammen. Fällt GSM-R aus, rollt aus Sicherheitsgründen kein einziger Zug. Logisch. Wenn niemand mehr sicher mit dem Lokführer sprechen kann, fährt man besser gar nicht.

Soweit der Sicherheitsmechanismus, der funktioniert hat. Niemand ist zu Schaden gekommen. Die Bahn hat die Ursache gefunden und gegen Mitternacht einen Notfallmodus hochgefahren, gegen ein Uhr rollten die ersten Züge wieder.

Und trotzdem lässt mich der Abend nicht los. Weil das, was da ausgefallen ist, mehr über unsere Art zu bauen erzählt als über die Bahn.

GSM-R ist 2G mit Bahn-Aufkleber

Die Technik hinter GSM-R stammt aus der GSM-Ära. 2G, Mobilfunk aus den Neunzigern, angepasst auf die Bahn und Mitte der 2000er eingeführt. Das ist nicht per se schlimm, alte Technik kann grundsolide sein.

Das Problem ist ein anderes. Dieses eine System ist das alleinige Nervensystem des kompletten Schienenverkehrs. Nicht nur bei der Deutschen Bahn. Wettbewerber wie Metronom und Erixx fahren auf derselben Infrastruktur, also trifft eine Störung alle gleichzeitig. Es gibt keine gleichwertige zweite Ebene, die in der Sekunde übernimmt, in der das Hauptsystem stirbt. Kein Backup, das sofort anspringt. Nur ein Notfallmodus, den jemand erst mühsam hochfahren muss, während draussen tausende Menschen festsitzen.

Ein System. Ein Punkt. Geht der weg, steht alles.

Das nennt man Single Point of Failure

Der Begriff klingt nach IT-Abteilung, meint aber etwas sehr Einfaches. Ein Single Point of Failure ist die eine Stelle, deren Ausfall das ganze System lahmlegt. Kein Umweg, keine Reserve, kein Plan B. Fällt dieser Punkt, fällt alles.

Und genau dieses Muster sehe ich nicht nur bei der Bahn. Ich sehe es in fast jedem Mittelstandsprojekt, in das Maartje und ich reingehen.

Im Mittelstand heisst der Punkt nur anders

Er heisst dann nicht GSM-R. Er heisst:

Der eine Anbieter, von dem die halbe Produktion abhängt und der keinen echten Wettbewerber im Haus hat.

Das eine Tool, in dem alle Prozesse stecken, dessen Vertrag aber niemand richtig gelesen hat.

Der eine Mensch, der als einziger weiss, wie die Schnittstelle zwischen Warenwirtschaft und Versand wirklich läuft. Geht der in Rente, geht das Wissen mit.

Das eine Excel-Makro, das seit zwölf Jahren die Angebotskalkulation macht und das keiner mehr anfassen will.

Und immer öfter: die eine KI oder der eine Automatisierungs-Flow, der sich quer durch drei Abteilungen zieht und für den es keinen Plan B gibt, wenn der Anbieter morgen die Preise verdreifacht oder den Dienst einstellt.

Jeder dieser Punkte fühlt sich im Alltag effizient an. Genau das ist die Falle. Effizienz ohne zweite Ebene ist nur Abhängigkeit mit gutem Gefühl. So lange, bis der eine Punkt ausfällt. Dann steht nicht ein Zug. Dann steht der Laden.

Resilienz baust du am Anfang, nicht im Notfall

Hier wird es unbequem. Resilienz ist keine Funktion, die du später dazuschaltest. Es ist eine Entscheidung, die du am Anfang triffst, wenn du die Architektur baust. Wer ein System auf einen einzigen Punkt stellt, hat sich gegen Resilienz entschieden, auch wenn das niemand laut gesagt hat.

Bei der Bahn sieht man das gut. Der Nachfolger von GSM-R steht längst fest. Er heisst FRMCS, baut auf 5G auf und soll das alte System ablösen. Beschlossen ist das seit Jahren. Eingebaut ist es bis heute nicht, weil so ein Umbau über die gesamte Strecke und Fahrzeugflotte eine Aufgabe für ein Jahrzehnt ist, nicht für eine Saison.

Das ist der eigentliche Punkt. Die Lösung war entschieden. Die Umsetzung kam nicht hinterher. Und genau diese Lücke zwischen Entscheidung und Vollzug ist das, was ich im Mittelstand am häufigsten sehe. Die Strategie liegt in der Schublade. Im Betrieb ändert sich nichts.

Wie du deinen Single Point of Dependency findest

Du musst dafür kein IT-Experte sein. Drei Fragen reichen für den Anfang.

Erstens: Wenn morgen ein einzelnes System, ein einzelner Anbieter oder ein einzelner Mensch ausfällt, steht dann der Betrieb? Schreib die Punkte auf, bei denen die Antwort ehrlich ja lautet.

Zweitens: Für welche dieser Punkte gibt es eine zweite Ebene, die wirklich in Stunden übernimmt, nicht in Wochen? Wenn die Antwort ein Notfallmodus ist, den erst jemand mühsam hochfahren muss, hast du keine zweite Ebene. Du hast Hoffnung.

Drittens: Welche Entscheidung zur zweiten Ebene liegt bei dir schon in der Schublade und wird nur nicht umgesetzt? Das ist meistens der schnellste Hebel, weil das Denken schon erledigt ist.

Genau an diesen Fragen arbeiten Maartje und ich bei CTRL+ALT+LEAD. Nicht an der schönsten Folie, sondern an der Architektur darunter.

Und jetzt?

Ironischerweise hatte ich gestern in Bochum meine Keynote zum Single Point of Dependency. Die Frage, die ich dort gestellt habe, kann ich heute live an alle weitergeben, während ich auf einem Bahnsteig stehe.

Welcher eine Punkt in deinem Betrieb darf nicht ausfallen, weil sonst alles steht?

Den hast du gerade gefunden. Jetzt bau die zweite Ebene.

Die Zukunft passiert nicht. Sie wird entschieden.

Ähnliche Beiträge