Episode 355 From Mars to Data Centers: AI that Prevents Cloud Outages.

Summary

Cloud-Ausfälle müssen kein Rätsel sein – und auch kein wiederkehrender Feuerwehreinsatz. Host Dr. Darren spricht mit Dr. Helen Gu, Professorin an der North Carolina State University und Gründerin/CEO von InsightFinder, darüber, wie KI für Cloud-Operations Ausfälle erkennen, vorhersagen und automatis

KI zur Vermeidung von Cloud-Ausfällen: Wie prädiktive Analytik und selbstheilende Systeme die IT verändern

Warum die Verhinderung von Ausfällen die nächste KI-Grenze ist

Was wäre, wenn Ihre Infrastruktur einen Cloud-Ausfall erkennen könnte, bevor die Benutzer es jemals bemerken? Das ist das Versprechen hinter der KI-gestützten Ausfallprävention, und es bewegt sich schnell von Forschungslabors in reale Produktionsumgebungen.

Doktor Helen Gu, Professorin an der North Carolina State University und Gründerin von Insight Finder, hat jahrzehntelang daran gearbeitet, KI-Systeme zu entwickeln, die Ausfälle erkennen, vorhersagen und automatisch beheben. Ihre Arbeit zeigt, warum prädiktive Analytik, Anomalieerkennung und selbstheilende Systeme sowohl für Technologen als auch für Wirtschaftsführer von Bedeutung sind: Ausfallzeiten sind kostspielig, und Prävention ist weit besser als Reparatur.

"Von Mars-Streaming zu moderner Cloud-Zuverlässigkeit"

Wie KI begann, schwierige Systemprobleme zu lösen.

Helens Weg in die KI begann lange vor dem heutigen Boom der generativen KI. Ihre frühe Forschung, die von der NASA finanziert wurde, konzentrierte sich darauf, das Video-Streaming von Mars zur Erde zuverlässig zu gestalten, indem neuronale Netzwerke verwendet wurden, um den Ressourcenverbrauch aus Videoinhalten vorherzusagen.

Diese gleiche Idee entwickelte sich zu einer umfassenderen Mission: den Einsatz von maschinellem Lernen, um komplexe verteilte Systeme stabil zu halten. Anstatt nur Texte, Bilder oder Videos zu analysieren, konzentrierte sich ihr Team auf Maschinenprotokolle, Telemetrie und Anwendungsdaten – die chaotischen Signale, die oft Probleme aufdecken, bevor es zu einem Ausfall kommt.

The translation of "Why human operators can’t catch everything" to German is: "Warum menschliche Bediener nicht alles erfassen können."

Moderne Cloud-Umgebungen sind zu dynamisch für eine alleinige manuelle Überwachung. Ein einzelner Server kann Dutzende von Anwendungen ausführen, von denen jede Hunderte von Metriken erzeugt, die ständig schwanken. Wenn diese Signale über Microservices, APIs und Container hinweg kombiniert werden, kann es schwierig sein, die Ursache eines Fehlers zu isolieren.

Das ist, wo KI hilft. Sie kann versteckte Muster erkennen, frühzeitig Ressourcenerschöpfung identifizieren und eingrenzen, welches Bauteil das Problem verursacht, bevor sich das Problem ausbreitet.

The translation of "Key takeaways" to German is "Wichtige Erkenntnisse."

Cloud-Systeme sind zu komplex für eine Überwachung nur mit Schwellenwerten.

Frühwarnsignale erscheinen häufig in Protokollen und Telemetrie.

  • KI kann Fehler schneller lokalisieren als manuelle Fehlersuche.

Warum unüberwachtes Lernen und Rückkopplungsschleifen wichtig sind

Lernen aus Mustern ohne handbeschriftete Daten

Eine der größten Herausforderungen bei der Systemzuverlässigkeit ist, dass es selten genügend gelabelte Trainingsdaten für jede mögliche Fehlfunktion gibt. Helens Team wandte sich dem unüberwachten Lernen zu, was bedeutet, dass das Modell Muster lernt, ohne im Voraus gesagt zu bekommen, was "normal" oder "schlecht" ist.

Für Unternehmensleiter ist das wichtig, da Ausfälle selten identisch aussehen. KI-Modelle, die nur auf festen Regeln trainiert sind, können subtile Probleme übersehen, während unüberwachte und Online-Lernsysteme sich anpassen, wenn sich die Umgebung ändert.

The translation of "Closing the loop with human feedback" to German is: "Den Kreis mit menschlichem Feedback schließen."

Helen betonte auch, dass KI nicht blind vertraut werden sollte. Ihr Ansatz kombiniert mehrere Techniken – prädiktive KI, kausale Inferenz, Verhaltenslernen und kleine Sprachmodelle – zu einem zusammengesetzten System, das sich im Laufe der Zeit verbessert.

Ebenso wichtig ist, dass Benutzer die Ergebnisse überprüfen und Vorhersagen als gut oder schlecht kennzeichnen können. Dieses Feedback schafft einen geschlossenen Kreis, der dem Modell hilft, genauer zu werden, ohne dass ständige manuelle Nachbearbeitung erforderlich ist.

The translation of "Key takeaways" to German is "Wichtige Erkenntnisse."

Unsupervised Learning ist ideal, wenn Labels rar sind.

Die KI sollte die Betreiber unterstützen, nicht deren Urteilsvermögen ersetzen.

  • Rückkopplungsschleifen verbessern die Genauigkeit im Laufe der Zeit.

Die Zukunft: Selbstheilende Systeme über Cloud, Edge und KI-Agenten hinweg.

Von der Erkennung zur automatischen Korrektur

Die nächste Stufe besteht nicht nur darin, einen Ausfall zu erkennen. Es geht darum, den Datenverkehr umzuleiten, Ressourcen zu skalieren, Parameter anzupassen und Probleme automatisch zu beheben, bevor die Benutzer die Auswirkungen spüren.

Helen sieht dies als immer wichtiger an, da Systeme über die traditionelle Cloud hinaus in Edge-Umgebungen, KI-Agenten und hybride Infrastrukturen expandieren. Die Überwachungsherausforderung erstreckt sich nun über Modelle, Daten, Hardware und menschliche Interaktionen – und das alles gleichzeitig.

Warum das für kritische Infrastrukturen wichtig ist

Diese Techniken sind besonders wertvoll, wenn das Scheitern reale Konsequenzen hat: Verteidigungssysteme, Kraftwerke, Wasseraufbereitung und industrielle Betriebe. In diesen Bereichen ist prädiktive Prävention nicht nur effizient, sondern auch unerlässlich.

Helens Arbeit erinnert daran, dass KI am mächtigsten wird, wenn sie praktisch, messbar und für Hochrisiko-Umgebungen entwickelt ist.

The translation of "Listen, learn, and share" to German is "Hören, lernen und teilen."

Wenn Ihnen die Zuverlässigkeit der Cloud, KI-Operationen oder die Zukunft von selbstheilenden Systemen am Herzen liegen, hören Sie sich die gesamte Episode an und entdecken Sie mehr von Embracing Digital Transformation. Teilen Sie diesen Beitrag mit Ihrem Team, hinterlassen Sie einen Kommentar zu Ihrer größten Herausforderung bei der Verhinderung von Ausfällen und treten Sie der Community auf EmbracingDigital.org bei, um weitere Einblicke zu erhalten.