WISSEN KOMPAKT

Wann wird aus einer Störung ein Notfall?

Der nachstehende Auszug aus dem Bericht eines Rechenentrums beschreibt einen gravierenden Serverausfall. Handelt es sich bei dem beschriebenen Vorfall um eine Störung oder um einen Notfall? Wie würden Sie die Frage für Ihr Unternehmen beantworten?

Verursacht wurde das Problem letztlich von einer defekten Festplatte im zentralen Storage, einem Verbund aus ca. 50 Festplatten, an den alle Server angeschlossen sind. Die Festplatte ist jedoch nicht ausgefallen, sondern zeigte nur leichte Performance-Abweichungen, weshalb sie nicht sofort als defekt erkannt wurde und auch nicht automatisch deaktiviert wurde. Beim Austausch der Festplatte ist dem Techniker dann ein folgenschwerer Fehler unterlaufen, der zunächst zu erheblichen Performance-Einbußen und schließlich zum Totalausfall des Systems geführt hat. Man entschied sich zum Wechsel auf ein identisches Backup-System, das jedoch mit einem Zeitversatz von 6 Stunden synchronisiert wird. Um Datenverlust zu vermeiden, wurden die beiden Systeme vor der Inbetriebnahme noch einmal abgeglichen, was jedoch aufgrund der vorhandenen Probleme im Master-Storage deutlich länger gedauert hat als erwartet.“

Um die Frage zu beantworten, ob es sich bei dem Vorfall um eine Störung oder einen Notfall handelt, muss zunächst geklärt werden: Was ist eigentlich ein Notfall?

Was ist ein Notfall?

An dieser Stelle ist ein Blick in den BSI-Standard 100-4 sinnvoll. Der ca. 120 Seiten umfassende Standard 100-4 Notfallmanagement wurde vom Bundesamt für Sicherheit in der Informationstechnik Ende 2008 veröffentlicht und beschreibt eine Methode zum Aufbau eines eigenständigen Managementsystems für die Notfallvorsorge und die Notfallbewältigung. Das BSI ordnet den Standard 100-4 formal der Standardreihe zur Informationssicherheit und IT-Grundschutz zu.

Auf Seite 5 heißt es hier: »Ein Notfall ist ein Schadensereignis, bei dem Prozesse oder Ressourcen einer Institution nicht wie vorgesehen funktionieren. Die Verfügbarkeit der entsprechenden Prozesse oder Ressourcen kann innerhalb einer geforderten Zeit nicht wiederhergestellt werden. Der Geschäftsbetrieb ist stark beeinträchtigt. Eventuell vorhandene SLAs (Service Level Agreements) können nicht eingehalten werden. Es entstehen hohe bis sehr hohe Schäden, die sich signifikant und in nicht akzeptablem Rahmen auf das Gesamtjahresergebnis eines Unternehmens oder die Aufgabenerfüllung einer Behörde auswirken. Notfälle können nicht mehr im allgemeinen Tagesgeschäft abgewickelt werden, sondern erfordern eine gesonderte Notfallbewältigungsorganisation«.

Vor allem zwei Punkte sind hier wesentlich:

  • Im Mittelpunkt stehen das Unternehmen und dessen Geschäftsprozesse
  • Ein Notfall ist definiert durch eine erhebliche Schadenshöhe mit Auswirkungen auf das Gesamtunter­nehmen und das Erfordernis einer gesonderten Organisation zur Bewältigung des Notfalls

Betrachten wir die Definition allerdings genauer, wird deutlich, dass es sich hierbei eher um einen „Lückentext“, als um eine umsetzbare Definition handelt. Denn was sich hinter den Begriffen „nicht wie vorgesehen funktionieren“, „innerhalb der geforderten Zeit“, „stark beeinträchtigt“, „hohe bis sehr hohe Schäden“ und ein „nicht akzeptabler Rahmen“ verbirgt ist unternehmensspezifisch und muss aus Sicht der jeweiligen Geschäftsprozesse definiert werden.

Demzufolge kann auch der im Beispiel beschriebene Vorfall, nicht pauschal als Notfall eingestuft werden. Zwar gab es einen Totalausfall des Systems und ein Wechsel auf ein identisches Backup-System war notwendig, der dann länger gedauert hat, als erwartet. Einen Notfall würde dies aber nur begründen, wenn beispielweise aufgrund von Imageschäden oder Strafzahlungen aufgrund von SLA-Verletzungen, die vom Unternehmen definierten Schwellenwerte für hohe oder sehr hohe Schäden überschritten werden würden. Der Totalausfall allein rechtfertigt hingegen nicht die Einstufung als Notfall.

Häufig vernachlässigt: Die Businuess Impact Analyse – BIA

Das Instrument zur Ermittlung der notwendigen Kenngrößen ist die Business Impact Analyse (BIA). Aufgabe der Business Impact Analyse ist es, zu untersuchen, wie gravierend sich Ausfälle von Prozessen und Ressourcen auswirken können. Das Ergebnis gibt Aufschluss darüber, welche Prozesse und Ressourcen besonders abzusichern sind, damit Unternehmen auch in Notfällen ihre wichtigsten Ziele und Aufgaben erfüllen kann.  Diese Einordnung bildet die Grundlage für die Risikoanalyse und die Entwicklung von Notfallvorsorgemaßnahmen.

Nur auf Basis der Ergebnisse einer BIA ist es letztendlich möglich die tolerierbaren Ausfallzeiten einzelner Prozesse und der sie unterstützenden IT-Komponenten zu definieren. Für die IT-Organisation spielen dabei die folgenden Parameter eine wichtige Rolle:

  • Maximal tolerierbare Ausfallzeit (MTA): Dieser Wert gibt an, wann ein System/Anwendung wie lange ein System/Anwendung maximal ausfallen darf.
  • Recovery time Objective (RTO): Maximale Zeit vom Zeitpunkt des Schadens bis zur vollständigen Wiederherstellung des Geschäftsprozesses.
  • Recovery Point Objective (RPO): Maximal tolerierbarer Datenverlust- hieraus resultiert welcher Zeitraum maximal zwischen zwei Datensicherungen liegen darf.
  • Maximal tolerierbare Wiederanlaufzeit (WAZ): Dieser Wert gibt an, wie lange es dauern darf, bis ein System im Notbetrieb zur Verfügung stehen muss.

Tipp: Das von uns bereits in mehreren Beiträgen erwähnte bzw. vorgestellte Umsetzungsrahmenwerk zum BSI Standard 100-4 bietet auch Hilfestellungen und Vorlagen zur Erstellung einer BIA.

Die in der BIA ermittelten Ergebnisse sowie die durchzuführende Risikoanalyse zur Feststellung der Eintrittswahrscheinlichkeiten sind Voraussetzung für die Auswahl geeigneter Notfallstrategien und auch für die Erstellung des Notfallhandbuchs, das wir im Beitrag Notfallhandbuch – Ein modularer Aufbau vereinfacht nicht nur die Pflege näher vorstellen.