Studie zeigt: Ausfallraten bei Rechenzentren sinken, Kosten für Ausfälle steigen

Diese Nachricht ist nicht mehr aktuell, eine neue Version finden Sie hier.

Ausfalltrends und ihre Ursachen

Die Vermeidung von Ausfällen hat für Betreiber von kritischer digitaler Infrastruktur höchste Priorität. In den letzten Jahren ist dies auch zunehmend für Regulierungsbehörden und Marktaufsichten von wachsendem Interesse. Die jährliche Studie des Uptime Institute „Annual Outages Analysis 2023“ untersucht Ausfalltrends, Ursachen, Kosten und Folgen.

Datenschwierigkeiten und Unsicherheiten

Daten zu Ausfällen sollten mit Skepsis betrachtet werden, da alle Methoden zur Erfassung der Häufigkeit, Schwere und Kosten von Ausfällen mit Unsicherheiten behaftet sind. Dies ist teilweise auf mangelnde Transparenz und fehlenden Meldepflichten zurückzuführen.

Sinkende Ausfallraten, höhere Kosten

Es gibt Anzeichen, dass die Ausfallraten in den letzten Jahren allmählich gesunken sind. Obwohl die meisten Standorte in den letzten drei Jahren einen Ausfall erlitten haben, sind nur wenige davon schwerwiegend gewesen. Wenn Ausfälle jedoch auftreten, werden sie teurer – ein Trend, der sich fortsetzen dürfte, da die Abhängigkeit von digitalen Dienstleistungen immer weiter zunimmt. Da inzwischen mehr als zwei Drittel aller Ausfälle jeweils über 100.000 US-Dollar Schäden verursachen, wird der Bedarf für mehr Investitionen in Resilienz und Schulungen stärker.

Wachsender Anteil durch Drittanbieter

Professionelle Drittanbieter von digitaler Infrastruktur wie Cloud-, Colocation-, Telekommunikations- und Hosting-Unternehmen machen einen wachsenden Anteil an den Ursachen für Ausfälle aus. Dies spiegelt die wachsende Rolle und Bedeutung dieser Unternehmen wider.

Menschliches Versagen und Managementprobleme

Menschliche Fehler und Managementversagen tragen zu einer erheblichen Anzahl von Ausfällen bei. Deshalb sind mehr Schulungen und Investitionen in Managementprozesse erforderlich.

Die Gründe für steigende Ausfallkosten

Die steigenden Kosten für Ausfälle lassen sich auf verschiedene Faktoren zurückführen. Dazu zählen eine gestiegene Inflation, Geldstrafen, Verstöße gegen Service Level Agreements und höhere Arbeitskosten. Der größte Einzelfaktor ist jedoch die wachsende Abhängigkeit von Unternehmensaktivitäten von externen digitalen Dienstleistungen und Rechenzentren. Der Verlust eines kritischen IT-Dienstes führt oft direkt und sofort zu Geschäftsstörungen und Umsatzeinbußen.

Trend zu höheren Kosten und Fokus auf Resilienz

Der Trend zu höheren Kosten infolge von Ausfällen wird sich voraussichtlich fortsetzen, da die Abhängigkeit von digitalen Diensten zunimmt. Einige Unternehmen erwarten umfassendere SLAs, diese könnten Ausfälle noch kostspieliger machen, ebenso wie höhere regulatorische Geldstrafen und Entschädigungen für betroffene Kunden. Dies rechtfertigt eine weitere Analyse der Ursachen und Kosten von Ausfällen sowie anhaltende oder erhöhte Investitionen in Resilienz.

Zusammenfassung und Herausforderungen für die Zukunft

Hohe Verfügbarkeit und Resilienz (Ausfallvermeidung und eine effektive, schnelle Wiederherstellung) sind für alle Beteiligten in der digitalen Infrastruktur-Lieferkette von großer Bedeutung. Der Fortschritt in diesem Bereich ist jedoch nicht so verlässlich wie das Mooresche Gesetz in den letzten Jahrzehnten. Die Daten des Uptime Institute zeigen, dass Fortschritte nur schrittweise und unter großen Anstrengungen erreicht werden und dass Fehler – wenn sie passieren – zunehmend teuer werden.

Einige Trends könnten Fortschritte bei Gerätezuverlässigkeit und Verbesserung von Prozessen und Management beeinträchtigen:

Der Übergang zu verteilten Architekturen, bei denen mehr IT-Funktionen auf Standard-IT-Systemen laufen, verteilt oder repliziert über mehrere Standorte, verringert den Einfluss einiger lokalisierter Ausfälle, kann aber wiederum während einer längeren Übergangsphase mehr Netzwerk-, Software- oder Systemprobleme verursachen.

Der Wechsel zu erneuerbaren Energien und dezentraler Energieerzeugung und -speicherung kann, so glauben viele, die Zuverlässigkeit des Stromnetzes verringern. Obwohl Netzwerkausfälle nicht als Hauptursache für Ausfälle gelten, belasten sie dennoch die Energieversorgung und Managementprozesse von Rechenzentren.

Die Rolle von erfahrenem und gut geschultem Personal, das bewährte Managementprozesse befolgt, ist entscheidend für die Erreichung von Resilienz. Vielerorts besteht jedoch ein Fachkräftemangel, der es schwierig macht, genügend qualifizierte Mitarbeiter zu finden.

Die Vermeidung von Ausfällen ist eine fortwährende Herausforderung, die ständige Überwachung und Aufmerksamkeit, Investitionen und Analysen erfordert. Zu den wichtigsten Überlegungen gehören: Installation und Erhöhung von Redundanz, Tests, ständige Überprüfung von sich ändernden Bedrohungen und Technologien und vor allem Investitionen in Personal und Schulungen.

Abschließend zeigt die Studie, dass die Ausfallraten zwar sinken, die Kosten jedoch steigen. Dies verdeutlicht die Notwendigkeit von Investitionen in Resilienz, Schulungen und Managementprozesse. Um die wachsenden Anforderungen an die digitale Infrastruktur zu bewältigen, müssen Unternehmen und Anbieter kontinuierlich an der Verbesserung ihrer Systeme und Prozesse arbeiten.