SLIC for Steelcentral – Application Service Level Monitoring

Tausende Daten - IP Adressen, Anwendungen, TCP Informationen, Metriken, etc. eines Analyse tools können in verwirrend überwältigender Menge und Tiefe geliefert werden. Die Daten werden idR. meist jedoch nur zur Fehlersuche verwendet. Dabei liefert das komplexe Zahlen-Material die perfekte Basis für hochkarätige Reports und service-orientierte Dashboards. Diese Aufgabe übernimmt Slic.

Verfügbarkeit & Performance - Management Metriken

Als Service-Qualitätskriterium für einen direkten Einfluß auf Geschäftsprozesse werden im wesentlichen nur diese 2 Parameter benötigt: Verfügbarkeit und Performance in % von Anwendungen. SLIC errechnet die Faktoren Verfügbarkeit und Performance von Anwendungen, pro Anwendung, pro Service Gruppe, Pro Geschäftsbereich. Diese Werten werden zuverlässig v.a. für Web Anwendungen erzeugt, und dienen als zentrale Grundlage für die SLA-Berechnungen.
Für Non-Web-Anwendungen werden die Werte durch das Baseline Modul erzeugt.

Service-orientierte Dashboards mit klaren Workflows

Die Software bildet die Werte in einem zielführenden Top-Down Prozess ab. von der Rot / Grün-Darstellung für Verfügbarkeit und Performance, über Graphen / Tabellen, die die kritischen Elemente aufzeigen, bis zu Incident Reports, die die ursächlichen Werte rausfiltern und anzeigen, die für die Service-Degradierung bestimmend sind.
Bei der Entwicklung der Dashboards und Reports verfolgen wir das Ziel des Verzicht auf alle unnötigen Daten - man findet hier keine Graphen von 100ten von Metriken, - wir bemühen uns um Darstellung von „Informationen“, dafür die Anzeige der Metriken, die einen Incident erzeugt haben.

Abbildung 1: SLA Dashboard

Hier sieht man dass die gesamt Availability bei 35,8% liegt und für jede Application die Anzahl der Incidents angezeigt wird.

Abbildung 2: Application Incident Heat Chart

In diesem Chart wird chronologisch für eine bestimmte Zeit die Natur der Incidents für jede Applikation oder Server angezeigt.

Revisions-fähige Service Level Reports

SLIC kann unterschiedliche Daten aus unterschiedlichen Quellen importieren, korreliieren und aus dieser Integration mehrere Visibilitäts-Ebenen erzeugen - wie z.B.
• System / Server aus SNMP
• Application Daten aus Monitoring Lösungen wie Steelcentral® und
• Transaktionsdaten aus synthetischen Click-Strecken.
Die erzeugten Reports sind korrekt formatiert, als PDF und HTML verfügbar.
Kommentar-Funktionen innerhalb der Reports und Dashboards ermöglichen, Ausfälle oder Abweichungen in den Reports zu kommentieren und sichtbar zu machen.
Slic erlaubt die Berücksichtigung von Wartungszeiten, Businesshours und außerplanmäßigen Off-Zeiten.

Abbildung 3: SLA / BSC Wochenreport

Multi-Tier-Level Service Discovery

Applikations-Probleme werden i.d.R. zwischen den Service-Elementen weiter transportiert, ein Problem beim DB Server sorgt für schlechte Antwortzeiten beim Web-Server. Die Kenntnis der Service Architektur ist die Voraussetzung für einer Service-Bewertung.
Die Daten werden in SLIC verwendet, um eine tägliche automatisierte Service Discovery durchzuführen.
Die Front-End- sowie Backend Server-Systeme, die an einem komplexen IT-Service beteiligten Systeme werden aufgelistet bzw. in einem Architektur-Chart dargestellt. Da die Service Discovery täglich durchgeführt wird, sind die Architektur Charts immer aktuell. Änderungen innerhalb einer Service Kette, z.B. neue Server, werden erfasst und ausgewiesen.

Abbildung 4: Service Architecture Discovery

Multi-Tier Service Bewertung

Ist die Service Architektur erfasst, kann auch der Service bewertet werden. In SLIC wird unterschieden zwischen Frontend- und Backend-Bewertung, um die tatsächliche Root Cause zu erkennen – ausgehend von der Annahme, dass sich ein Fehler vom Backend zum Frontend möglicherweise fortpflanzt.
Die Bewertung der Systeme erfolgt immer Service-orientiert – d.h. nicht die Elemente an sich werden hier dargestellt, diese könnten z.B. Probleme aufweisen, die für den betreffenden Service keine Relevanz haben – sondern die Qualität der Verbindungen innerhalb des Service.
Die Bewertung von Non-Web-Anwendungen gestaltet sich schwieriger, da keine Performance-Referenz existiert wie bei Web-Anwendungen z.B. die Pagetime, die immer gleich bzw. unter einem definierbaren Höchstwert sein sollte. Für die Bewertung von Non-Web-Anwendungen wurde deshalb ein flexibles Baseline-Modul entwickelt, um Standard-Abweichungen festzustellen und diese für die Bewertung von Non- Web-Anwendungen und Servern zu verwenden. Damit können dynamische Schwellwerte verwendet werden, die wiederum eine Performance & Verfügbarkeitsaussage ermöglichen.

Service Dashboard

Die Systeme werden gegen globale oder individuelle Schwellwerte verglichen und in Service- Health-Dashboards abhängig von Ihrer Performance/ Verfügbarkeits-Funktion farbig ausgewiesen. So kann sofort die Schwachstelle innerhalb einer Service-Kette ausgewiesen werden (.zB. DB Slow Responsetime als Ursache für Slow Pagetime).

All-Data Import

Daten die aus Fremdsystemen kommen, z.B. von synthetischen SLA-Robotern, die die Verfügbarkeit von Click-Strecken messen, aus SNMP Monitoren oder VmSpere können importiert und ebenfalls dargestellt werden.
Dabei kann ein externes Programm die Werte für Verfügbarkeit und Performance errechnen und SLIC importiert dann die fertigen Daten – oder SLIC übernimmt die Berechnung der Werte aus den Rohdaten und stellt diese in Reports bereit.

Capturing

Für die letzte Überprüfung von Incidents sowie der Analyse von Events, die keine Incidents erzeugt haben, müssen Packet-Daten analysiert werden.
In SLIC können High-Performance-Capture –Appliances (iPAC) integriert werden.
Der Workflow erlaubt es, direkt aus den Incident-Reports heraus Filter im BPF-Format zu erstellen und die Paket-Daten zu laden.
Die kostengünstigen „iPAC PacketStore“- Systeme capturen Pakete bis zu 40 Gbps dropless – auf bis zu 650 TB Speicher – pro Stack.
iPAC-Stacks können geclustert werden, so dass mehrere IPAC – Stacks als ein System administriert werden kann.

Auto Trace Analysis

Werden die Traces erzeugt und gespeichert , werden diese automatisch auf bekannte Fehler-Symptome analysiert, und ihr Zustand farblich markiert.

Triggerd Capture

Incidents können automatische Capture- Files erzeugen und downloaden, die in einem separaten Speicher zV. stehen. Dabei können Filter nicht nur für die betroffenen, sondern auch für die verbundenen Systeme definiert werden. Erlebt z.B. ein Server eine hohe Reset Rate zu einem anderem System, wird als Tracefilter die beidseitige Kommunikation verwendet – und nicht nur die IP Adresse des Incident- auslösenden Systems.
SLIC kann die vorhandenen Funktionen einer bestehenden Monitoring– Lösung deutlich erweitern, und die Informationen auch für das Service-Management sichtbar machen. Durch die Korrelation mit Fremd-Daten können unterschiedliche Service-Ebenen miteinander korreliert werden, was die Transparenz der Business-Services erheblich verbessert.