Dr.-Ing. Thomas Tauchnitz, Chefredakteur Industry des atp magazins, überlegt, was wir aus der Update-Panne von CrowdStrike lernen können.
Was ist passiert?
Am 19. Juli veröffentlichte das US-amerikanische Cybersecurity-Unternehmen CrowdStrike ein fehlerhaftes Update seiner Software „Falcon Sensor“. Diese Software dient dem Schutz von Windows-Systemen vor Cyberattacken, indem sie Bedrohungen erkennt und verhindert. Solche Updates werden bei Falcon – wie bei solchen Systemen üblich – regelmäßig eingespielt. Doch leider enthielt das Update vom 19. Juli eine unvollständige Datei, die zu einem „Ungültige-Seite-Fehler“ führte. Die Folgen waren dramatisch: 8,5 Millionen Windows-Systeme konnten nicht hochgefahren werden, mehr als 5000 Flüge fielen aus, mehrere Flugplätze wurden geschlossen, Bargeldautomaten streikten, Börsen mussten ruhen und selbst Supermarktketten machten zu, die US-amerikanische Notrufnummer 911 fiel in vielen Bundesländern aus und Krankenhäuser verschoben Operationen. Der Gesamtschaden wir auf 25 Milliarden USD geschätzt.
Aber es gab auch Glück im Unglück: In weniger als sechs Stunden gab es ein weiteres Update und die Systeme konnten – wenn auch teilweise mit manuellen Aktivitäten – wieder hochgefahren werden. Bei einer bösartigen Attacke wäre das wohl nicht so schnell gegangen. Und da CrowdStrike „nur“ 24000 Kunden hatte, waren nur wenige Promille der Windows-Systeme betroffen. Gar nicht auszudenken, welche Schäden sonst entstanden wären.
Fehlerkaskade
Wie so oft beim Auftreten von Problemen gab es nicht einen einzelnen Fehler, sondern eine ganze Kaskade von Fehlern:
- Irgendjemand hat einen Fehler beim Erstellen des Updates gemacht: ein menschlicher Fehler.
- Das Update wurde nicht ordnungsgemäß getestet: Vermutlich ebenfalls ein menschlicher Fehler.
- Das Update wurde nicht schrittweise ausgerollt, mit Pilotkunden oder ähnlichem, sondern gleich flächendeckend: ein klarer organisatorischer Fehler.
- Der Updater hätte erkennen müssen, dass die neue Version nicht funktioniert und es abbrechen müssen: ein technischer Fehler.
- Beim Neustart wurde erneut unmittelbar versucht, das Update zu installieren, statt den Rechner mit dem alten Stand zu starten oder den Updateversuch nach einigen Minuten zu wiederholen, so dass ein Mensch hätte eingreifen können: Ein konzeptioneller Fehler.
Weitere Diskussionspunkte
Ich sehe drei weitere diskussionswürdige Punkte:
- CrowdStrikes Falcon ist ein „Endpoint Detection and Response-Programm“, das nicht nach bekannter Schadsoftware sucht, sondern Auffälligkeiten identifizieren und direkt unterbinden will. Dazu braucht Falcon Zugriffsrechte auf Systemebene – und genau das war das Problem. Hat jemand den erwarteten Nutzen mit dem damit verbundenen Risiko abgewogen, bevor er zusätzlich zum Virenschutz und anderen Maßnahmen auch noch diese fortschrittliche Lösung dazugepackt hat? Wie schon mein Vater sagte: „Was nicht dran ist, kann auch nicht kaputtgehen.“
- Die Informationssicherheit hat drei wichtige Schutzziele: Vertraulichkeit, Integrität und (!) Verfügbarkeit. Security ist kein Selbstzweck. Wenn eine Sicherheitssoftware die Verfügbarkeit ernsthaft verringert, ist sie unbrauchbar.
- Der Hersteller haftet nur in Höhe seiner Lizenzgebühren. Niedlich! Und unglaublich. Natürlich wäre jede Softwarefirma sofort bankrott, wenn sie für alle Folgeschäden haften würde, aber dann hätte sie mit Sicherheit ihre Tests und Updateprogramme besser im Griff gehabt und Best Practices wie ein schrittweises Ausrollen nicht sträflich vernachlässigt.
Übertragung auf die Automatisierung
Es geht mir mit diesem Beitrag nicht darum, mit dem Finger auf die IT zu zeigen, sondern ich will uns Automatisierer zum Nachdenken anregen: Menschliche Fehler machen wir auch – stellt die Organisation ein hinreichend vorsichtiges Testen und Ausrollen sicher? Steht bei unseren Systemen die Verfügbarkeit ausreichend im Fokus? Haben wir die Ressourcen und Kompetenz, bei Fehlern innerhalb von Stunden zu reagieren.
Glücklich, wer zu allen drei Fragen „ja“ sagen kann!
Dr.-Ing. Thomas Tauchnitz
Chefredakteur Industry atp magazin
atp@TAUTOMATION.consulting