Problemverwaltung

Ursachen identifizieren und Vorfallwiederholung verhindern

Auf einen Blick

Problemverwaltung identifiziert die Ursachen wiederkehrender Vorfälle. KaliaOps bietet einen dedizierten Workflow mit Untersuchungsphasen, Workaround-Dokumentation, Known Error Database (KEDB) Verwaltung und Verfolgung der Implementierung permanenter Lösungen.

Übersicht

Ein Problem ist die Ursache eines oder mehrerer Vorfälle.

Vorfall vs. Problem

  • Vorfall: Symptom, sichtbare Auswirkung, schnelle Behebung
  • Problem: Ursache, zugrundeliegendes Problem, permanente Behebung

Ziel der Problemverwaltung

Laut ITIL:

  • Die Ursache von Vorfällen identifizieren
  • Workarounds dokumentieren, um zukünftige Lösungen zu beschleunigen
  • Permanente Lösungen implementieren, um Wiederholung zu verhindern

Beispiel

  • Vorfall: «Anwendung X ist um 10 Uhr abgestürzt»
  • Problem: «Speicherleck in Modul Y verursacht Abstürze unter Last»
  • Workaround: Service täglich neu starten
  • Lösung: Fix im nächsten Release bereitstellen

Problem erstellen

1

Probleme-Modul öffnen

Menü ITSM → Probleme.

2

Auf «Neues Problem» klicken

Das Erstellungsformular öffnen.

3

Problem beschreiben

Ausfüllen:

  • Titel: Klare Zusammenfassung des zugrundeliegenden Problems
  • Beschreibung: Kontext, Symptome, Beobachtungen
  • Priorität: Basierend auf Impact und Häufigkeit
4

Zugehörige Vorfälle verknüpfen

Vorfälle zuordnen, die dieses Problem aufgedeckt haben.

5

Absenden

Das Problem wird mit Status «New» erstellt.

Tipp: Erstellen Sie ein Problem, wenn Sie wiederkehrende Vorfälle auf demselben Element sehen, oder einen Vorfall mit einem Workaround, der die Ursache nicht adressiert.

Workflow und Status

Verfügbare Status

StatusBeschreibung
NewProblem identifiziert, noch nicht untersucht
AssignedZur Untersuchung zugewiesen
Under InvestigationUrsachenanalyse läuft
Root Cause IdentifiedUrsache gefunden, Lösung wird geplant
Known ErrorIn KEDB dokumentiert, Workaround verfügbar
ResolvedPermanente Lösung implementiert
ClosedProblem abgeschlossen und validiert

Standard-Workflow

NEW → ASSIGNED → UNDER_INVESTIGATION → ROOT_CAUSE_IDENTIFIED
                                              ↓
                                        KNOWN_ERROR (mit Workaround)
                                              ↓
                                          RESOLVED → CLOSED

Ursachenanalyse (RCA)

Ursachenanalyse identifiziert, warum Vorfälle aufgetreten sind.

RCA-Methoden

  • 5 Whys: Wiederholt «Warum?» fragen, bis die Ursache erreicht ist
  • Ishikawa-Diagramm: Potenzielle Ursachen kategorisieren
  • Timeline-Analyse: Ereignisse nachverfolgen, die zum Vorfall führten
  • Log-Analyse: Systemlogs auf Beweise prüfen

RCA dokumentieren

In KaliaOps dokumentieren:

  • Ursachenbeschreibung: Klare Erklärung des zugrundeliegenden Problems
  • Beweise: Logs, Screenshots, Testergebnisse
  • Beitragende Faktoren: Bedingungen, die den Ausfall ermöglichten

Beispiel

Ursache: Erschöpfung des Datenbankverbindungspools

Beweise:
- Verbindungsanzahl erreichte Maximum (100) um 09:58
- Erste Fehler um 09:59 protokolliert
- Pool vor 5 Jahren für geringere Last konfiguriert

Beitragende Faktoren:
- Traffic im letzten Jahr um 300% gestiegen
- Kein Monitoring auf Verbindungspool
Tipp: Eine gute Ursache ist spezifisch, evidenzbasiert und umsetzbar. «Menschlicher Fehler» ist selten eine gute Ursache - graben Sie tiefer.

Workarounds dokumentieren

Ein Workaround ist eine temporäre Lösung, die den Service wiederherstellt, ohne die Ursache zu beheben.

Warum Workarounds dokumentieren?

  • Schnellere Lösung: Techniker können bekannte Behebung sofort anwenden
  • Konsistenz: Alle verwenden denselben Ansatz
  • Service-Kontinuität: Benutzer erhalten schnell Service zurück

Gute Workaround-Dokumentation

Enthält:

  • Schritte: Klare, nummerierte Anweisungen
  • Voraussetzungen: Erforderlicher Zugang, Tools
  • Nebenwirkungen: Einschränkungen oder Auswirkungen
  • Dauer: Wie lange hält die Behebung?

Beispiel

Workaround: Anwendungsservice neu starten

Schritte:
1. Mit Server SRV-APP-01 verbinden
2. Ausführen: systemctl restart app-service
3. Service-Status prüfen: systemctl status app-service
4. 5 Minuten überwachen

Nebenwirkungen:
- 30 Sekunden Ausfallzeit während Neustart
- Aktive Sitzungen werden beendet

Dauer: Behebt für ~24 Stunden bis Speicherleck erneut auftritt

Known Errors (KEDB)

Die Known Error Database (KEDB) erfasst Probleme mit identifizierten Ursachen.

Was ist ein Known Error?

Ein Known Error ist:

  • Ein Problem mit identifizierter Ursache
  • Ein dokumentierter Workaround
  • Wartet auf permanente Lösung (oder keine Behebung geplant)

Vorteile der KEDB

  • Schnellere Vorfallbehebung: Techniker durchsuchen KEDB zuerst
  • Wissensaustausch: Expertise ist dokumentiert
  • Onboarding: Neue Teammitglieder lernen häufige Probleme

Als Known Error markieren

  1. Ursachenanalyse abschließen
  2. Workaround dokumentieren
  3. Status auf «Known Error» ändern
  4. Das Problem ist jetzt in der KEDB suchbar

KEDB verwenden

Bei der Vorfallbearbeitung:

  1. KEDB nach passenden Symptomen durchsuchen
  2. Wenn gefunden, dokumentierten Workaround anwenden
  3. Vorfall mit dem Known Error verknüpfen

Permanente Lösungen implementieren

Die permanente Lösung beseitigt die Ursache.

Lösungsdokumentation

Aufzeichnen:

  • Lösungsbeschreibung: Was wurde getan
  • Implementierungsdatum: Wann wurde es angewendet
  • Change-Referenz: Link zum zugehörigen Change-Ticket
  • Validierung: Wie wir verifiziert haben, dass es funktioniert

Typische Lösungen

  • Code-Fix bereitgestellt
  • Konfigurationsänderung
  • Infrastruktur-Upgrade
  • Prozessverbesserung
  • Schulung durchgeführt

Workflow

  1. Lösung entwickeln/planen
  2. Change-Ticket für Implementierung erstellen
  3. Change implementieren
  4. Fix validieren
  5. Problem-Status auf «Resolved» aktualisieren
  6. Lösung dokumentieren
Tipp: Erstellen Sie immer ein Change-Ticket für permanente Lösungen. Dies gewährleistet ordnungsgemäße Tests, Genehmigung und Rollback-Planung.

Zugehörige Vorfälle verknüpfen

Verknüpfen Sie zugehörige Vorfälle mit dem Problem.

Warum Vorfälle verknüpfen?

  • Umfangsbewertung: Wie viele Benutzer waren betroffen?
  • Mustererkennung: Wann treten Vorfälle auf?
  • Kommunikation: Alle betroffenen Benutzer auf einmal aktualisieren
  • Metriken: Kosten/Impact des Problems

Verknüpfungen erstellen

Vom Problem aus:

  1. Zum Abschnitt «Zugehörige Vorfälle» gehen
  2. Auf «Vorfall verknüpfen» klicken
  3. Vorfälle suchen und auswählen

Von einem Vorfall aus:

  1. Vorfall öffnen
  2. Bei «Zugehöriges Problem» das Problem auswählen

Automatische Erkennung

KaliaOps kann Verknüpfungen vorschlagen basierend auf:

  • Gleiche betroffene Assets
  • Ähnliche Symptome (Schlüsselwörter)
  • Zeitliche Nähe

Auswirkung auf die Lösung

Wenn das Problem gelöst ist:

  • Alle verknüpften Vorfälle können aktualisiert werden
  • Benutzer erhalten Benachrichtigung
  • Statistiken reflektieren die Lösung
Wichtige Punkte
  • Klare Unterscheidung: Vorfall (Symptom) vs. Problem (Ursache)
  • Dedizierter Workflow für Untersuchung und RCA
  • Wiederverwendbare Known Error Database (KEDB)
  • Workaround + permanente Lösung Dokumentation
  • Automatische Verknüpfung mit wiederkehrenden Vorfällen
Zurück zur Dokumentation Nächster Artikel Änderungsverwaltung