Problemverwaltung
Ursachen identifizieren und Vorfallwiederholung verhindern
Problemverwaltung identifiziert die Ursachen wiederkehrender Vorfälle. KaliaOps bietet einen dedizierten Workflow mit Untersuchungsphasen, Workaround-Dokumentation, Known Error Database (KEDB) Verwaltung und Verfolgung der Implementierung permanenter Lösungen.
Übersicht
Ein Problem ist die Ursache eines oder mehrerer Vorfälle.
Vorfall vs. Problem
- Vorfall: Symptom, sichtbare Auswirkung, schnelle Behebung
- Problem: Ursache, zugrundeliegendes Problem, permanente Behebung
Ziel der Problemverwaltung
Laut ITIL:
- Die Ursache von Vorfällen identifizieren
- Workarounds dokumentieren, um zukünftige Lösungen zu beschleunigen
- Permanente Lösungen implementieren, um Wiederholung zu verhindern
Beispiel
- Vorfall: «Anwendung X ist um 10 Uhr abgestürzt»
- Problem: «Speicherleck in Modul Y verursacht Abstürze unter Last»
- Workaround: Service täglich neu starten
- Lösung: Fix im nächsten Release bereitstellen
Problem erstellen
Probleme-Modul öffnen
Menü ITSM → Probleme.
Auf «Neues Problem» klicken
Das Erstellungsformular öffnen.
Problem beschreiben
Ausfüllen:
- Titel: Klare Zusammenfassung des zugrundeliegenden Problems
- Beschreibung: Kontext, Symptome, Beobachtungen
- Priorität: Basierend auf Impact und Häufigkeit
Zugehörige Vorfälle verknüpfen
Vorfälle zuordnen, die dieses Problem aufgedeckt haben.
Absenden
Das Problem wird mit Status «New» erstellt.
Workflow und Status
Verfügbare Status
| Status | Beschreibung |
|---|---|
| New | Problem identifiziert, noch nicht untersucht |
| Assigned | Zur Untersuchung zugewiesen |
| Under Investigation | Ursachenanalyse läuft |
| Root Cause Identified | Ursache gefunden, Lösung wird geplant |
| Known Error | In KEDB dokumentiert, Workaround verfügbar |
| Resolved | Permanente Lösung implementiert |
| Closed | Problem abgeschlossen und validiert |
Standard-Workflow
NEW → ASSIGNED → UNDER_INVESTIGATION → ROOT_CAUSE_IDENTIFIED
↓
KNOWN_ERROR (mit Workaround)
↓
RESOLVED → CLOSED Ursachenanalyse (RCA)
Ursachenanalyse identifiziert, warum Vorfälle aufgetreten sind.
RCA-Methoden
- 5 Whys: Wiederholt «Warum?» fragen, bis die Ursache erreicht ist
- Ishikawa-Diagramm: Potenzielle Ursachen kategorisieren
- Timeline-Analyse: Ereignisse nachverfolgen, die zum Vorfall führten
- Log-Analyse: Systemlogs auf Beweise prüfen
RCA dokumentieren
In KaliaOps dokumentieren:
- Ursachenbeschreibung: Klare Erklärung des zugrundeliegenden Problems
- Beweise: Logs, Screenshots, Testergebnisse
- Beitragende Faktoren: Bedingungen, die den Ausfall ermöglichten
Beispiel
Ursache: Erschöpfung des Datenbankverbindungspools
Beweise:
- Verbindungsanzahl erreichte Maximum (100) um 09:58
- Erste Fehler um 09:59 protokolliert
- Pool vor 5 Jahren für geringere Last konfiguriert
Beitragende Faktoren:
- Traffic im letzten Jahr um 300% gestiegen
- Kein Monitoring auf Verbindungspool Workarounds dokumentieren
Ein Workaround ist eine temporäre Lösung, die den Service wiederherstellt, ohne die Ursache zu beheben.
Warum Workarounds dokumentieren?
- Schnellere Lösung: Techniker können bekannte Behebung sofort anwenden
- Konsistenz: Alle verwenden denselben Ansatz
- Service-Kontinuität: Benutzer erhalten schnell Service zurück
Gute Workaround-Dokumentation
Enthält:
- Schritte: Klare, nummerierte Anweisungen
- Voraussetzungen: Erforderlicher Zugang, Tools
- Nebenwirkungen: Einschränkungen oder Auswirkungen
- Dauer: Wie lange hält die Behebung?
Beispiel
Workaround: Anwendungsservice neu starten
Schritte:
1. Mit Server SRV-APP-01 verbinden
2. Ausführen: systemctl restart app-service
3. Service-Status prüfen: systemctl status app-service
4. 5 Minuten überwachen
Nebenwirkungen:
- 30 Sekunden Ausfallzeit während Neustart
- Aktive Sitzungen werden beendet
Dauer: Behebt für ~24 Stunden bis Speicherleck erneut auftritt Known Errors (KEDB)
Die Known Error Database (KEDB) erfasst Probleme mit identifizierten Ursachen.
Was ist ein Known Error?
Ein Known Error ist:
- Ein Problem mit identifizierter Ursache
- Ein dokumentierter Workaround
- Wartet auf permanente Lösung (oder keine Behebung geplant)
Vorteile der KEDB
- Schnellere Vorfallbehebung: Techniker durchsuchen KEDB zuerst
- Wissensaustausch: Expertise ist dokumentiert
- Onboarding: Neue Teammitglieder lernen häufige Probleme
Als Known Error markieren
- Ursachenanalyse abschließen
- Workaround dokumentieren
- Status auf «Known Error» ändern
- Das Problem ist jetzt in der KEDB suchbar
KEDB verwenden
Bei der Vorfallbearbeitung:
- KEDB nach passenden Symptomen durchsuchen
- Wenn gefunden, dokumentierten Workaround anwenden
- Vorfall mit dem Known Error verknüpfen
Permanente Lösungen implementieren
Die permanente Lösung beseitigt die Ursache.
Lösungsdokumentation
Aufzeichnen:
- Lösungsbeschreibung: Was wurde getan
- Implementierungsdatum: Wann wurde es angewendet
- Change-Referenz: Link zum zugehörigen Change-Ticket
- Validierung: Wie wir verifiziert haben, dass es funktioniert
Typische Lösungen
- Code-Fix bereitgestellt
- Konfigurationsänderung
- Infrastruktur-Upgrade
- Prozessverbesserung
- Schulung durchgeführt
Workflow
- Lösung entwickeln/planen
- Change-Ticket für Implementierung erstellen
- Change implementieren
- Fix validieren
- Problem-Status auf «Resolved» aktualisieren
- Lösung dokumentieren
Zugehörige Vorfälle verknüpfen
Verknüpfen Sie zugehörige Vorfälle mit dem Problem.
Warum Vorfälle verknüpfen?
- Umfangsbewertung: Wie viele Benutzer waren betroffen?
- Mustererkennung: Wann treten Vorfälle auf?
- Kommunikation: Alle betroffenen Benutzer auf einmal aktualisieren
- Metriken: Kosten/Impact des Problems
Verknüpfungen erstellen
Vom Problem aus:
- Zum Abschnitt «Zugehörige Vorfälle» gehen
- Auf «Vorfall verknüpfen» klicken
- Vorfälle suchen und auswählen
Von einem Vorfall aus:
- Vorfall öffnen
- Bei «Zugehöriges Problem» das Problem auswählen
Automatische Erkennung
KaliaOps kann Verknüpfungen vorschlagen basierend auf:
- Gleiche betroffene Assets
- Ähnliche Symptome (Schlüsselwörter)
- Zeitliche Nähe
Auswirkung auf die Lösung
Wenn das Problem gelöst ist:
- Alle verknüpften Vorfälle können aktualisiert werden
- Benutzer erhalten Benachrichtigung
- Statistiken reflektieren die Lösung
- Klare Unterscheidung: Vorfall (Symptom) vs. Problem (Ursache)
- Dedizierter Workflow für Untersuchung und RCA
- Wiederverwendbare Known Error Database (KEDB)
- Workaround + permanente Lösung Dokumentation
- Automatische Verknüpfung mit wiederkehrenden Vorfällen