Derzeit ist die Ursachenforschung für das tragische Flugzeugunglück in Äthiopien noch in vollem Gange.
Was war passiert?
Ethiopian ET302 stürzte am 10.3.2019 kurz nach dem Start ab.
Am 29.10.2018 stürzte Lion Air JT610 12 Minuten nach dem Start ab.
Dasselbe Flugzeug wurde einen Tag vorher geflogen (als JT043), wohl mit denselben Problemen, aber einer anderen Reaktion durch die Crew.
Damit sind innerhalb von fünf Monaten zwei Flugzeuge des Typs Boeing 737 MAX abgestürzt.
Ich möchte die Diskussion zu den Absturzgründen nutzen, um eine Technik aus dem Lean Thinking zu illustrieren:
Mit “5 Whys” fragt man mehrmals nach, was die Ursache für ein Problem ist.
Die Zahl 5 ist dabei nur eine Faustregel.
Wichtig ist, dass man sich zu immer tiefer liegenden Ursachen vorarbeitet.
Das geht nur, wenn man oft genug fragt und nicht bei der ersten gefundenen Ursache stehen bleibt.
Das Verfahren ist auch als “root cause analysis” bekannt.
Aber zurück zu den Flugzeugunglücken.
Beachte: Wir sollten immer im Hinterkopf behalten, dass die Untersuchung noch nicht abgeschlossen ist.
Meine Aussagen und Vermutungen basieren auf einem Interview mit Andreas Spaeth auf Tagesschau.de,
einem Twitter-Thread von Trevor Sumner und auf einer Analyse von
Peter Lemme.
Wir starten mit einer Warum-Frage und gehen die Kette der Ursachen entlang:
- Warum sind die Flugzeuge abgestürzt? Ein automatisches Software-System (MCAS, “Maneuvering Characteristics Augmentation System”)
hat die Nase des Flugzeugs zu weit nach unten gedrückt.
- Warum wurde das MCAS aktiv? Weil es fehlerhafte Sensordaten über den Anstellwinkel des Flugzeugs bekam.
Der von den Sensoren gemeldete Anstellwinkel war zu hoch, worauf das MCAS wie vorgesehen reagierte:
Um einen Strömungsabriss zu vermeiden, wurde die Nase des Flugzeugs nach unten gedrückt.
- Warum waren die Sensordaten fehlerhaft? Das ist bisher wohl noch nicht bekannt.
Soweit so gut, aber für ein Unglück müssen in der Regel mehrere Probleme zusammenkommen.
In der Luftfahrt sind viele Systeme redundant ausgelegt, so dass das Versagen eines einzelnen Bauteils nicht zur Katastrophe führt.
Machen wir mal mit den Sensoren weiter:
Bei den abgestürzten Maschinen gab es nur einen Sensor für den Anstellwinkel.
- Warum gab es nur einen Sensor?
Boeing verkauft ein optionales Zusatzpaket mit einem weiteren Sensor und einem “AoA disagree light” (AoA = angle of attack, Anstellwinkel),
das aufleuchtet, falls beide Sensoren unterschiedliche Werte liefern.
Dieses Zusatzpaket wurde für die betroffenen Flugzeuge nicht gekauft.
- Warum gehört der zweite Sensor nicht zur Standardausstattung? Darauf gibt es bisher keine Antwort, soweit ich weiß.
- Warum verlässt sich ein automatisiertes System (MCAS) auf Sensordaten, die nicht redundant ausgelegt sind?
(Mag sein, dass diese Frage naiv ist, ich bin kein Flugzeugexperte. Vielleicht gibt es ja Dutzende Systeme, die sich
auf einen einzelnen Sensor verlassen.)
Schließlich wäre noch die Rolle der Piloten zu untersuchen:
- Warum haben die Piloten nicht gegengesteuert? Beim Lion Air Flug
haben sie es versucht,
aber das automatische System MCAS hat die Oberhand behalten.
- Warum konnten die Piloten sich nicht durchsetzen?
Ich weiß nicht,
ob die Ethiopian-Piloten das Problem (MCAS reagiert auf falsche Sensordaten) richtig erkannt haben.
Vielleicht werden wir das erfahren, wenn die Tonaufzeichnungen aus dem Cockpit ausgewertet sind.
Jedenfalls versucht das MCAS immer wieder hartnäckig, die Lage des Flugzeugs in seinem Sinne zu korrigieren.
- Es gibt wohl gute Gründe anzunehmen, dass sie das Problem nicht richtig eingeordnet haben.
Warum nicht? Bei den LionAir-Flügen wussten die Piloten nichts über die Existenz das MCAS.
Vor dem Ethiopian-Flug gab es eine Warnung der Luftfahrtbehörde (Emergency Airworthiness Directive, November 2018),
die genau auf dieses Problem Bezug nahm.
Auch an die Luftfahrtbehörden kann man Fragen stellen:
- Warum wurde nicht schon nach dem ersten Unglück die Boeing 737 MAX mit Startverbot belegt?
Ich nehme mal an, es gibt Regeln, nach denen die Probleme klassifiziert werden.
Diese Regeln führten wohl zu einer Warnung, ein Startverbot schien nicht gerechtfertigt.
- Warum wurde auf das anscheinend systematische Problem (MCAS reagiert auf falsche Sensordaten) nur mit einer Warnung reagiert?
Man hätte ja z.B. verlangen können, dass es immer zwei Sensoren geben muss.
- Warum wurde das Problem nicht schon bei der Zulassung des Flugzeugtyps erkannt?
An den Hersteller:
- Warum wurde die MCAS Software eingebaut? Weil die Stabilität des Flugzeugs bei einem großen Anstellwinkel sonst zu schlecht gewesen wäre.
- Warum wäre die Stabilität ohne MCAS schlecht gewesen?
Weil die 737 MAX größere Triebwerke an dem vorhandenen 737 Flugzeug-Design verwendet.
- Warum größere Triebwerke bei gleichbleibendem Rumpf usw.?
Man wollte Entwicklungskosten und -zeit sparen, um schnell eine Antwort auf vergleichbare, konkurrierende Flugzeugmodelle von Airbus zu haben.
Die obigen Fragen klingen für manche etwas inquisitorisch, bei Projekt-Beteiligten gehen dann schnell die Schutzschilde hoch.
Die natürliche Abwehrreaktion von Individuen und Gruppen führt dazu, dass wir schnell mit der Ursachensuche aufhören,
sobald wir eine “schuldige Person”
oder ein fehlerhaftes technisches System gefunden haben.
Erst wenn man weiter fragt, und nicht auf die erste Kurzschlussfolgerung vertraut,
kann man die vielschichtigen Ursachen herausarbeiten.
Dieselbe Technik kann man in der IT für die Ursachenforschung bei System-Ausfällen, gescheiterten Projekten
oder für allgemeine Verbesserungen anwenden.
Mögliche Startfragen in unserem Kontext wären etwa
Warum kam es zum Datenverlust am letzten Mittwoch?
Warum machen wir Releases nur alle 8 Wochen?
Warum brauchen wir so viele Überstunden?
usw.
Das Ziel ist immer, aus vergangenen Fehlern zu lernen und die Prozesse und Systeme besser zu machen.
Um Vorbeugung und Verbesserung geht es sowohl in der IT als auch bei den Flugzeugabstürzen,
und ich bin sicher, dass die Luftfahrt auch aus den neuesten Unglücken lernen wird.
Matthias Berth